일반화 오류: 분석 모형을 만들 때 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류 => 과적합(overfitting)의 사례
훈련 오류: 주어진 데이터 집합에 부차적인 특성과 잡음(노이즈)가 있다는 것을 고려하여 그것의 특성을 덜 반영하도록 만들어 생기는 오류 => 미적합(underfitting)의 사례
두 오류를 모두 고려한 분석 모형 검증방법: 홀드아웃 교차검증, 다중교차검증
RMSE: 추정치와 실제값 간의 차이를 나타내기 위한 척도. 오차평균에 제곱근을 씌운다.
yt hat = t번째 실제값. yt = t번째 측정치
R코딩식 ㄱ
sum(abs(s_te[,7]-lrm(s_te[,7]-)))/sqrt(nrow(s_te))
시뮬레이션: 현실을 부분적으로 모사하는 모형을 통해 가능한 상황들에 대한 체계적인 가상 실험을 수행하여 정보 추출, 문제 해결, 예측하는 수행 기법. 통계모형~기계적모형(e.충돌실험시설)
분석 모형이 유효한지(현실을 잘 묘사하고 있는지) 판단하기 위해(->타당성평가) 사용.
분석모형 보정) 두 변수 간의 관계가 선형적일 것이라는 가정 아래 단순회귀모형으로 분석 모형을 구축하였지만, 타당성 평가 결과 그 모형이 올바르지 않았다고 판단될 경우, 다중회귀모형 또는 곡선회귀모형으로 분석 모형을 재설계하거나 다른 방식으로 모수 추정하여 보정해야 한다.
평균 오차와 표준편차가 비슷하면 모형은 의미가 있다고 할 수 있다.
데이터 변환: 더 효율적인 분석을 위해 데이터의 특정 변수를 정해진 법칙에 따라 변환한다.
방법1) 평활: 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만드는 방법.
구간의 너비를 작게 해서 히스토그램을 표현하는 구간화, 비슷한 것끼리 모으는 군집화 등 사용
방법2) 변수 변환: 변수값을 x라고 할 때, y=f(x)의 함수를 이용해 변수값을 일괄 적용하여 새로운 변수를 생성하는 방법
방법 3) 총계: 두 개 이상의 샘플을 하나의 샘플로 합산하는 방법
k-means 알고리즘: k개 군집의 중심을 임의의 데이터 값으로 설정한 뒤 데이터들을 가장 가까운 군집에 배정한 후, 각 군집을 중심을 다시 계산하는 과정을 군집의 중심이 더 이상 변하지 않을 때까지 반복하여 k개의 군집을 만드는 방법. R에는 kmeans() 함수가 내재되어있다.
'데이터베이스 DB' 카테고리의 다른 글
정형/비정형/반정형 데이터 차이 (0) | 2020.08.16 |
---|---|
데이터 오류 종류 (0) | 2020.08.16 |
분석용 데이터 탐색 101 : 기초 통계기법 용어, 데이터 분석 기법 종류 (0) | 2020.08.16 |
분석용 데이터 탐색 101: 기본 용어, 표본 추출 기법, 척도 종류(질적/양적 속성) (0) | 2020.08.16 |
tidyr 패키지가 하는 일, 함수들 (0) | 2020.03.20 |
댓글