EDA 방법론1: 요약통계량 Summary Statistics
요약통계량 : 관측값의 분포를 요약하는 특성 : 많은 양의 정보를 단순하게 만든다. 숲을 보는 작업이 필요하다. 분포의 특성마다 하나의 요약통계량이 만들어진다. 1) 순서 최솟값(min), 제1사분위수(Q1=(min+med)/2), 중앙값(median: 중심에 있는 두 수의 평균), 제3사분위수(Q3=(max+med)/2), 최댓값(max)으로 순서를 매긴다. 사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값 ','를 기준으로 percentage를 계산하기 때문에 ex) 1, 2, 3, 4 가 있을 때 2는 33% 2) 위치 평균(mean), 중앙값(median), 최빈값(mode), 사분위간 평균(IQM: 1Q~3Q사이의 평균) cf) 빈도가 같으면 같은 빈도수의 수들 중 가장 작은 수를 대표로..
2020. 3. 12.