728x90
728x90
Feature Engineering : 머신러닝 모델을 위한 데이터의 Feature를 생성하거나 선택하는 작업
Feature: 행과 열이 있는 데이터에 열을 일컫는 말
첫 행이 변수의 이름, 행이 관측치, 열이 특징
1) 결측치 대체
기존에 있던 값 중에 무작위로 넣거나, 중앙값을 넣거나, 최빈값을 넣거나 NA를 하나의 카테고리로 보고 그대로 살리는 등의 방법으로 대체한다. NA: 결측치(측정되지 않은 수치)
2) 변수 단위 조정
표준화, 최소-최대 정규화 공식을 사용해서 조정해준다.
3) 변수 변환 - 특히, 로그 변환
데이터의 분포가 극단으로 치우쳐져 있는 경우 고르게 해 주기 위해 사용.
x’ = log(x-min(x)+1) =>좀 복잡하지만 데이터에 0이 들어가지 않도록 해주는 식이다.
일반 로그 취하는 경우, 변수가 0이면 무한대 나와 에러가 날 수 있기 때문에 이 에러 방지용!
4) 파생 변수 생성
가지고 있는 변수를 활용하여 새 변수를 만든다.
5) 수치형 변수의 범주화
6) 재범주화
7) 더미 인코딩
범주형 변수를 더미 변수(1 또는 0을 가지는 변수)로 만드는 작업
기존의 카테고리 -1만큼만 생성해도 된다.
-1된 카테고리는 다른 애들이 아닌 애니까 자동 분류되기 때문에
728x90
728x90
'데이터베이스 DB' 카테고리의 다른 글
RStudio 실행창 의미, 새 폴더 만들기 (0) | 2020.03.13 |
---|---|
EDA 프로세스 중 탐색에서 필수적인 것 (0) | 2020.03.13 |
EDA 방법론 2: 시각화 Visualization (0) | 2020.03.12 |
사분위값은 어디에 쓰는가? : Outlier 이상치 탐지법 (0) | 2020.03.12 |
EDA 방법론1: 요약통계량 Summary Statistics (0) | 2020.03.12 |
댓글