EDA 방법론1: 요약통계량 Summary Statistics

728x90

요약통계량

: 관측값의 분포를 요약하는 특성

: 많은 양의 정보를 단순하게 만든다. 숲을 보는 작업이 필요하다.

분포의 특성마다 하나의 요약통계량이 만들어진다.

1) 순서

최솟값(min), 제1사분위수(Q1=(min+med)/2), 중앙값(median: 중심에 있는 두 수의 평균), 제3사분위수(Q3=(max+med)/2), 최댓값(max)으로 순서를 매긴다.

사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값

','를 기준으로 percentage를 계산하기 때문에 ex) 1, 2, 3, 4 가 있을 때 2는 33%

2) 위치

평균(mean), 중앙값(median), 최빈값(mode), 사분위간 평균(IQM: 1Q~3Q사이의 평균)

cf) 빈도가 같으면 같은 빈도수의 수들 중 가장 작은 수를 대표로 한다.

ex) 2, 4, 10, 34, 64, 98이 있으면 1Q는 4와 10의 1:3 내분점

3) 산포

표준편차(var), sd(|var의 제곱근|), range(max-min), IQR, 변동계수(CV)

4) 모양

왜도(Skewness: 분포의 비대칭적인 정도), 첨도(Kurtosis: 분포의 뾰족한 정도)

5) 관계

상관계수: 두 변수 사이의 선형 관계를 -1과 1 사이의 값으로 나타낸 수치

- 피어슨의 상관계수

- 스피어만의 상관계수: 두 변수의 순위를 고려한 상관계수이기 때문에 이상치에 강건하다.

두 수치형 변수의 선형 관계를 측정하기 때문에 두 변수 간의 상관계수가 0이라고 해서 아무 관계도 없다는 말은 아니다.

728x90

Programming: LoveAndHate