728x90
728x90
요약통계량
: 관측값의 분포를 요약하는 특성
: 많은 양의 정보를 단순하게 만든다. 숲을 보는 작업이 필요하다.
분포의 특성마다 하나의 요약통계량이 만들어진다.
1) 순서
최솟값(min), 제1사분위수(Q1=(min+med)/2), 중앙값(median: 중심에 있는 두 수의 평균), 제3사분위수(Q3=(max+med)/2), 최댓값(max)으로 순서를 매긴다.
사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값
','를 기준으로 percentage를 계산하기 때문에 ex) 1, 2, 3, 4 가 있을 때 2는 33%
2) 위치
평균(mean), 중앙값(median), 최빈값(mode), 사분위간 평균(IQM: 1Q~3Q사이의 평균)
cf) 빈도가 같으면 같은 빈도수의 수들 중 가장 작은 수를 대표로 한다.
ex) 2, 4, 10, 34, 64, 98이 있으면 1Q는 4와 10의 1:3 내분점
3) 산포
표준편차(var), sd(|var의 제곱근|), range(max-min), IQR, 변동계수(CV)
4) 모양
왜도(Skewness: 분포의 비대칭적인 정도), 첨도(Kurtosis: 분포의 뾰족한 정도)
5) 관계
상관계수: 두 변수 사이의 선형 관계를 -1과 1 사이의 값으로 나타낸 수치
- 피어슨의 상관계수
- 스피어만의 상관계수: 두 변수의 순위를 고려한 상관계수이기 때문에 이상치에 강건하다.
두 수치형 변수의 선형 관계를 측정하기 때문에 두 변수 간의 상관계수가 0이라고 해서 아무 관계도 없다는 말은 아니다.
728x90
728x90
'데이터베이스 DB' 카테고리의 다른 글
EDA 프로세스 중 탐색에서 필수적인 것 (0) | 2020.03.13 |
---|---|
EDA 방법론3: Feature Engineering (0) | 2020.03.12 |
EDA 방법론 2: 시각화 Visualization (0) | 2020.03.12 |
사분위값은 어디에 쓰는가? : Outlier 이상치 탐지법 (0) | 2020.03.12 |
EDA의 중요성 (0) | 2020.03.12 |
댓글