본문 바로가기
데이터베이스 DB

EDA 방법론 2: 시각화 Visualization

by tovantablack 2020. 3. 12.
728x90
728x90

요약통계보다 정확한 데이터 분석 결과를 도출할 수 있다.

내가 정한 바의 기준에 따라 다른 시각화 결과가 나오기 때문.

 

종류

1) 히스토그램: 도수분포표를 그래프로 나타낸 것.

x축은 수치형 변수가 온다.

도수분포표: 수집한 데이터를 일정한 범위로 구분해 집계한 표(걍 우리가 자주 보는 표 형태)

 

2) 바플롯 : 표현 값에 비례한 높이를 지닌 직사각형 막대로 범주형(대소비교불가, 카테고리) 데이터를 표현하는 그래프 

x축은 범주형 변수

 

3) 박스플롯: 자료에서 얻은 다섯 수치 요약을 박스 형태로 그린 그래프

가운데 굵은 선이 중앙값. 박스 위아래가 Q1,3, 그 밖의 직선 두 개가 min, max

cf) 여기서의 min, max는 일반적인 min, max와 다르다!!

min: Q1 - 1.5 * IQR

max: Q3 + 1.5 * IQR

IQR(Interquartile Range): Q3-Q1, Q1: 25%, Q3: 75%

 

4) 산점도: 직교 좌표계를 이용해 두 변수 간의 관계를 나타낸 그래프

x축은 수치형 변수

 

5) 라인플롯: 시간의 흐름에 따라 관측값의 변화를 그린 그래프

x축은 시간의 흐름

관측값을 점으로 표시하고 그 점들을 선으로 연결(변화를 가시적으로 보이기 위해서 선을 잇는 거지 그 사이에 값들이 있는 것은 아님)

 

728x90
728x90

댓글