본문 바로가기

728x90
반응형
전체 글
728x90
반응형
210

CSS 클래스 스타일 일괄적용 안되는 이유 CSS 코딩을 하다가 상위 클래스에 display flex 설정해놨는데도 하위 클래스 element에 적용이 안되어있는 것을 발견했다. 코드가 충돌되어서 그런 건데, 우선관계에 따라서 적용이 안되기도 한다. 크롬에서 F12를 누르면 나오는 개발자 모드에서 ㅡ밑줄이 쳐져있는 부분이 무시된 부분이다. 위와 같은 방법으로 실제 적용된 부분을 확인할 수 있다. 코딩할 때 알 수 있는 방법은 없는지 궁금하다. 아시는 분 있으시면 댓글로 알려주시면 감사하겠습니다 :-) 2020. 3. 13.
EDA 방법론3: Feature Engineering Feature Engineering : 머신러닝 모델을 위한 데이터의 Feature를 생성하거나 선택하는 작업 Feature: 행과 열이 있는 데이터에 열을 일컫는 말 첫 행이 변수의 이름, 행이 관측치, 열이 특징 1) 결측치 대체 기존에 있던 값 중에 무작위로 넣거나, 중앙값을 넣거나, 최빈값을 넣거나 NA를 하나의 카테고리로 보고 그대로 살리는 등의 방법으로 대체한다. NA: 결측치(측정되지 않은 수치) 2) 변수 단위 조정 표준화, 최소-최대 정규화 공식을 사용해서 조정해준다. 3) 변수 변환 - 특히, 로그 변환 데이터의 분포가 극단으로 치우쳐져 있는 경우 고르게 해 주기 위해 사용. x’ = log(x-min(x)+1) =>좀 복잡하지만 데이터에 0이 들어가지 않도록 해주는 식이다. 일반 로그.. 2020. 3. 12.
EDA 방법론 2: 시각화 Visualization 요약통계보다 정확한 데이터 분석 결과를 도출할 수 있다. 내가 정한 바의 기준에 따라 다른 시각화 결과가 나오기 때문. 종류 1) 히스토그램: 도수분포표를 그래프로 나타낸 것. x축은 수치형 변수가 온다. 도수분포표: 수집한 데이터를 일정한 범위로 구분해 집계한 표(걍 우리가 자주 보는 표 형태) 2) 바플롯 : 표현 값에 비례한 높이를 지닌 직사각형 막대로 범주형(대소비교불가, 카테고리) 데이터를 표현하는 그래프 x축은 범주형 변수 3) 박스플롯: 자료에서 얻은 다섯 수치 요약을 박스 형태로 그린 그래프 가운데 굵은 선이 중앙값. 박스 위아래가 Q1,3, 그 밖의 직선 두 개가 min, max cf) 여기서의 min, max는 일반적인 min, max와 다르다!! min: Q1 - 1.5 * IQR m.. 2020. 3. 12.
사분위값은 어디에 쓰는가? : Outlier 이상치 탐지법 1, 56, 57,59, 100 이렇게 수가 구성되어있으면 이상치를 찾기 쉽지만, 비슷한 숫자들로 구성되어있으면 찾기가 어렵다. 이때, 이상치에 반응이 강건(둔감)한 median이나 IQM을 사용한다. mean은 이상치에 영향을 많이 받지만, 중앙값과 사분위값은 순서를 기준으로 정해지기 때문에 이상치에 영향을 많이 받지 않기 때문이다. IQM은 mean과 median의 특성을 모두 갖고 있다. 2020. 3. 12.
EDA 방법론1: 요약통계량 Summary Statistics 요약통계량 : 관측값의 분포를 요약하는 특성 : 많은 양의 정보를 단순하게 만든다. 숲을 보는 작업이 필요하다. 분포의 특성마다 하나의 요약통계량이 만들어진다. 1) 순서 최솟값(min), 제1사분위수(Q1=(min+med)/2), 중앙값(median: 중심에 있는 두 수의 평균), 제3사분위수(Q3=(max+med)/2), 최댓값(max)으로 순서를 매긴다. 사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값 ','를 기준으로 percentage를 계산하기 때문에 ex) 1, 2, 3, 4 가 있을 때 2는 33% 2) 위치 평균(mean), 중앙값(median), 최빈값(mode), 사분위간 평균(IQM: 1Q~3Q사이의 평균) cf) 빈도가 같으면 같은 빈도수의 수들 중 가장 작은 수를 대표로.. 2020. 3. 12.