728x90
728x90
요약통계보다 정확한 데이터 분석 결과를 도출할 수 있다.
내가 정한 바의 기준에 따라 다른 시각화 결과가 나오기 때문.
종류
1) 히스토그램: 도수분포표를 그래프로 나타낸 것.
x축은 수치형 변수가 온다.
도수분포표: 수집한 데이터를 일정한 범위로 구분해 집계한 표(걍 우리가 자주 보는 표 형태)
2) 바플롯 : 표현 값에 비례한 높이를 지닌 직사각형 막대로 범주형(대소비교불가, 카테고리) 데이터를 표현하는 그래프
x축은 범주형 변수
3) 박스플롯: 자료에서 얻은 다섯 수치 요약을 박스 형태로 그린 그래프
가운데 굵은 선이 중앙값. 박스 위아래가 Q1,3, 그 밖의 직선 두 개가 min, max
cf) 여기서의 min, max는 일반적인 min, max와 다르다!!
min: Q1 - 1.5 * IQR
max: Q3 + 1.5 * IQR
IQR(Interquartile Range): Q3-Q1, Q1: 25%, Q3: 75%
4) 산점도: 직교 좌표계를 이용해 두 변수 간의 관계를 나타낸 그래프
x축은 수치형 변수
5) 라인플롯: 시간의 흐름에 따라 관측값의 변화를 그린 그래프
x축은 시간의 흐름
관측값을 점으로 표시하고 그 점들을 선으로 연결(변화를 가시적으로 보이기 위해서 선을 잇는 거지 그 사이에 값들이 있는 것은 아님)
728x90
728x90
'데이터베이스 DB' 카테고리의 다른 글
EDA 프로세스 중 탐색에서 필수적인 것 (0) | 2020.03.13 |
---|---|
EDA 방법론3: Feature Engineering (0) | 2020.03.12 |
사분위값은 어디에 쓰는가? : Outlier 이상치 탐지법 (0) | 2020.03.12 |
EDA 방법론1: 요약통계량 Summary Statistics (0) | 2020.03.12 |
EDA의 중요성 (0) | 2020.03.12 |
댓글