728x90
728x90
잘못된 EDA는 잘못된 모델링 결과를 낳고, 불충분한 EDA는 모델링 과정을 어렵게 하고, 왜곡된 결과를 낳는다.
그래서 중요하다.
Exploratory Data Analysis는 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정이기 때문에 데이터 분석 프로세스에서 가장 핵심적인 부분이고, 가장 시간 투자를 많이 하는 부분이다.
EDA는 시행착오의 연속이니 포기하지 말 것
kaggle의 설립자는 이런 말을 했다.
"데이터 과학의 80%는 데이터 클리닝이고, 나머지 20%는 데이터 클리닝을 불평하는 것이다."
728x90
728x90
'데이터베이스 DB' 카테고리의 다른 글
EDA 프로세스 중 탐색에서 필수적인 것 (0) | 2020.03.13 |
---|---|
EDA 방법론3: Feature Engineering (0) | 2020.03.12 |
EDA 방법론 2: 시각화 Visualization (0) | 2020.03.12 |
사분위값은 어디에 쓰는가? : Outlier 이상치 탐지법 (0) | 2020.03.12 |
EDA 방법론1: 요약통계량 Summary Statistics (0) | 2020.03.12 |
댓글