본문 바로가기

728x90
반응형
데이터베이스 DB
728x90
반응형
45

EDA 방법론3: Feature Engineering Feature Engineering : 머신러닝 모델을 위한 데이터의 Feature를 생성하거나 선택하는 작업 Feature: 행과 열이 있는 데이터에 열을 일컫는 말 첫 행이 변수의 이름, 행이 관측치, 열이 특징 1) 결측치 대체 기존에 있던 값 중에 무작위로 넣거나, 중앙값을 넣거나, 최빈값을 넣거나 NA를 하나의 카테고리로 보고 그대로 살리는 등의 방법으로 대체한다. NA: 결측치(측정되지 않은 수치) 2) 변수 단위 조정 표준화, 최소-최대 정규화 공식을 사용해서 조정해준다. 3) 변수 변환 - 특히, 로그 변환 데이터의 분포가 극단으로 치우쳐져 있는 경우 고르게 해 주기 위해 사용. x’ = log(x-min(x)+1) =>좀 복잡하지만 데이터에 0이 들어가지 않도록 해주는 식이다. 일반 로그.. 2020. 3. 12.
EDA 방법론 2: 시각화 Visualization 요약통계보다 정확한 데이터 분석 결과를 도출할 수 있다. 내가 정한 바의 기준에 따라 다른 시각화 결과가 나오기 때문. 종류 1) 히스토그램: 도수분포표를 그래프로 나타낸 것. x축은 수치형 변수가 온다. 도수분포표: 수집한 데이터를 일정한 범위로 구분해 집계한 표(걍 우리가 자주 보는 표 형태) 2) 바플롯 : 표현 값에 비례한 높이를 지닌 직사각형 막대로 범주형(대소비교불가, 카테고리) 데이터를 표현하는 그래프 x축은 범주형 변수 3) 박스플롯: 자료에서 얻은 다섯 수치 요약을 박스 형태로 그린 그래프 가운데 굵은 선이 중앙값. 박스 위아래가 Q1,3, 그 밖의 직선 두 개가 min, max cf) 여기서의 min, max는 일반적인 min, max와 다르다!! min: Q1 - 1.5 * IQR m.. 2020. 3. 12.
사분위값은 어디에 쓰는가? : Outlier 이상치 탐지법 1, 56, 57,59, 100 이렇게 수가 구성되어있으면 이상치를 찾기 쉽지만, 비슷한 숫자들로 구성되어있으면 찾기가 어렵다. 이때, 이상치에 반응이 강건(둔감)한 median이나 IQM을 사용한다. mean은 이상치에 영향을 많이 받지만, 중앙값과 사분위값은 순서를 기준으로 정해지기 때문에 이상치에 영향을 많이 받지 않기 때문이다. IQM은 mean과 median의 특성을 모두 갖고 있다. 2020. 3. 12.
EDA 방법론1: 요약통계량 Summary Statistics 요약통계량 : 관측값의 분포를 요약하는 특성 : 많은 양의 정보를 단순하게 만든다. 숲을 보는 작업이 필요하다. 분포의 특성마다 하나의 요약통계량이 만들어진다. 1) 순서 최솟값(min), 제1사분위수(Q1=(min+med)/2), 중앙값(median: 중심에 있는 두 수의 평균), 제3사분위수(Q3=(max+med)/2), 최댓값(max)으로 순서를 매긴다. 사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값 ','를 기준으로 percentage를 계산하기 때문에 ex) 1, 2, 3, 4 가 있을 때 2는 33% 2) 위치 평균(mean), 중앙값(median), 최빈값(mode), 사분위간 평균(IQM: 1Q~3Q사이의 평균) cf) 빈도가 같으면 같은 빈도수의 수들 중 가장 작은 수를 대표로.. 2020. 3. 12.
EDA의 중요성 잘못된 EDA는 잘못된 모델링 결과를 낳고, 불충분한 EDA는 모델링 과정을 어렵게 하고, 왜곡된 결과를 낳는다. 그래서 중요하다. Exploratory Data Analysis는 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정이기 때문에 데이터 분석 프로세스에서 가장 핵심적인 부분이고, 가장 시간 투자를 많이 하는 부분이다. EDA는 시행착오의 연속이니 포기하지 말 것 kaggle의 설립자는 이런 말을 했다. "데이터 과학의 80%는 데이터 클리닝이고, 나머지 20%는 데이터 클리닝을 불평하는 것이다." 2020. 3. 12.