본문 바로가기
데이터베이스 DB

EDA 방법론3: Feature Engineering

by tovantablack 2020. 3. 12.
728x90
728x90

Feature Engineering : 머신러닝 모델을 위한 데이터의 Feature를 생성하거나 선택하는 작업

Feature: 행과 열이 있는 데이터에 열을 일컫는 말

첫 행이 변수의 이름, 행이 관측치, 열이 특징

 

1) 결측치 대체 

기존에 있던 값 중에 무작위로 넣거나, 중앙값을 넣거나, 최빈값을 넣거나 NA를 하나의 카테고리로 보고 그대로 살리는 등의 방법으로 대체한다. NA: 결측치(측정되지 않은 수치)

 

2) 변수 단위 조정

표준화, 최소-최대 정규화 공식을 사용해서 조정해준다.

 

3) 변수 변환 - 특히, 로그 변환

데이터의 분포가 극단으로 치우쳐져 있는 경우 고르게 해 주기 위해 사용.

x’ = log(x-min(x)+1)  =>좀 복잡하지만 데이터에 0이 들어가지 않도록 해주는 식이다.

일반 로그 취하는 경우, 변수가 0이면 무한대 나와 에러가 날 수 있기 때문에 이 에러 방지용!

 

4) 파생 변수 생성

가지고 있는 변수를 활용하여 새 변수를 만든다.

 

5) 수치형 변수의 범주화

 

6) 재범주화

 

7) 더미 인코딩

범주형 변수를 더미 변수(1 또는 0을 가지는 변수)로 만드는 작업

기존의 카테고리 -1만큼만 생성해도 된다.

-1된 카테고리는 다른 애들이 아닌 애니까 자동 분류되기 때문에

 

728x90
728x90

댓글