본문 바로가기

728x90
반응형
분류 전체보기
728x90
반응형
228

EDA 방법론 2: 시각화 Visualization 요약통계보다 정확한 데이터 분석 결과를 도출할 수 있다. 내가 정한 바의 기준에 따라 다른 시각화 결과가 나오기 때문. 종류 1) 히스토그램: 도수분포표를 그래프로 나타낸 것. x축은 수치형 변수가 온다. 도수분포표: 수집한 데이터를 일정한 범위로 구분해 집계한 표(걍 우리가 자주 보는 표 형태) 2) 바플롯 : 표현 값에 비례한 높이를 지닌 직사각형 막대로 범주형(대소비교불가, 카테고리) 데이터를 표현하는 그래프 x축은 범주형 변수 3) 박스플롯: 자료에서 얻은 다섯 수치 요약을 박스 형태로 그린 그래프 가운데 굵은 선이 중앙값. 박스 위아래가 Q1,3, 그 밖의 직선 두 개가 min, max cf) 여기서의 min, max는 일반적인 min, max와 다르다!! min: Q1 - 1.5 * IQR m.. 2020. 3. 12.
사분위값은 어디에 쓰는가? : Outlier 이상치 탐지법 1, 56, 57,59, 100 이렇게 수가 구성되어있으면 이상치를 찾기 쉽지만, 비슷한 숫자들로 구성되어있으면 찾기가 어렵다. 이때, 이상치에 반응이 강건(둔감)한 median이나 IQM을 사용한다. mean은 이상치에 영향을 많이 받지만, 중앙값과 사분위값은 순서를 기준으로 정해지기 때문에 이상치에 영향을 많이 받지 않기 때문이다. IQM은 mean과 median의 특성을 모두 갖고 있다. 2020. 3. 12.
EDA 방법론1: 요약통계량 Summary Statistics 요약통계량 : 관측값의 분포를 요약하는 특성 : 많은 양의 정보를 단순하게 만든다. 숲을 보는 작업이 필요하다. 분포의 특성마다 하나의 요약통계량이 만들어진다. 1) 순서 최솟값(min), 제1사분위수(Q1=(min+med)/2), 중앙값(median: 중심에 있는 두 수의 평균), 제3사분위수(Q3=(max+med)/2), 최댓값(max)으로 순서를 매긴다. 사분위수는 데이터 표본을 4개의 동일한 부분으로 나눈 값 ','를 기준으로 percentage를 계산하기 때문에 ex) 1, 2, 3, 4 가 있을 때 2는 33% 2) 위치 평균(mean), 중앙값(median), 최빈값(mode), 사분위간 평균(IQM: 1Q~3Q사이의 평균) cf) 빈도가 같으면 같은 빈도수의 수들 중 가장 작은 수를 대표로.. 2020. 3. 12.
EDA의 중요성 잘못된 EDA는 잘못된 모델링 결과를 낳고, 불충분한 EDA는 모델링 과정을 어렵게 하고, 왜곡된 결과를 낳는다. 그래서 중요하다. Exploratory Data Analysis는 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정이기 때문에 데이터 분석 프로세스에서 가장 핵심적인 부분이고, 가장 시간 투자를 많이 하는 부분이다. EDA는 시행착오의 연속이니 포기하지 말 것 kaggle의 설립자는 이런 말을 했다. "데이터 과학의 80%는 데이터 클리닝이고, 나머지 20%는 데이터 클리닝을 불평하는 것이다." 2020. 3. 12.
Using Slick slider while coding JS 자바스크립트로 react 쓰면서 프론트엔드 코딩하고 있었는데 슬라이더가 쓰고 싶어서 구글링하다가 슬릭을 쓰기로 했다. HTML과 JS의 관계는 밑의 그림처럼 html 바디 안에 JS가 들어가는 구조이다. 태그를 body 안에 넣어야 slick 슬라이더를 쓸 수 있는데 .js로 코딩하고 있던 터라 어디에 넣어야 할지 몰랐다. 그러다 찾은 html 파일!! 자기가 만든 파일 안에 public 폴더 안에 index.html 파일이 있다. 해당 파일 안의 바디에 넣으면 된다!! 2020. 3. 12.