본문 바로가기
데이터베이스 DB

데이터 분석 모형 검증: 탐색적 분석

by tovantablack 2020. 8. 16.
728x90
728x90

일반화 오류: 분석 모형을 만들 때 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류 => 과적합(overfitting)의 사례

훈련 오류: 주어진 데이터 집합에 부차적인 특성과 잡음(노이즈)가 있다는 것을 고려하여 그것의 특성을 덜 반영하도록 만들어 생기는 오류 => 미적합(underfitting)의 사례

두 오류를 모두 고려한 분석 모형 검증방법: 홀드아웃 교차검증, 다중교차검증

RMSE: 추정치와 실제값 간의 차이를 나타내기 위한 척도. 오차평균에 제곱근을 씌운다.

yt hat = t번째 실제값.  yt = t번째 측정치

R코딩식 ㄱ

sum(abs(s_te[,7]-lrm(s_te[,7]-)))/sqrt(nrow(s_te))

 

시뮬레이션: 현실을 부분적으로 모사하는 모형을 통해 가능한 상황들에 대한 체계적인 가상 실험을 수행하여 정보 추출, 문제 해결, 예측하는 수행 기법. 통계모형~기계적모형(e.충돌실험시설)
분석 모형이 유효한지(현실을 잘 묘사하고 있는지) 판단하기 위해(->타당성평가) 사용.

분석모형 보정) 두 변수 간의 관계가 선형적일 것이라는 가정 아래 단순회귀모형으로 분석 모형을 구축하였지만, 타당성 평가 결과 그 모형이 올바르지 않았다고 판단될 경우, 다중회귀모형 또는 곡선회귀모형으로 분석 모형을 재설계하거나 다른 방식으로 모수 추정하여 보정해야 한다.

평균 오차와 표준편차가 비슷하면 모형은 의미가 있다고 할 수 있다.

 

데이터 변환: 더 효율적인 분석을 위해 데이터의 특정 변수를 정해진 법칙에 따라 변환한다.

방법1) 평활: 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만드는 방법.
구간의 너비를 작게 해서 히스토그램을 표현하는 구간화, 비슷한 것끼리 모으는 군집화 등 사용

방법2) 변수 변환: 변수값을 x라고 할 때, y=f(x)의 함수를 이용해 변수값을 일괄 적용하여 새로운 변수를 생성하는 방법

방법 3) 총계: 두 개 이상의 샘플을 하나의 샘플로 합산하는 방법

k-means 알고리즘: k개 군집의 중심을 임의의 데이터 값으로 설정한 뒤 데이터들을 가장 가까운 군집에 배정한 후, 각 군집을 중심을 다시 계산하는 과정을 군집의 중심이 더 이상 변하지 않을 때까지 반복하여 k개의 군집을 만드는 방법. R에는 kmeans() 함수가 내재되어있다.

728x90
728x90

댓글