728x90
728x90
1. 결측치 NA : 샘플에서 누락된 변수값. 결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생한다. 이때, 샘플 제거, 해당 변수 제거, 결측치 무시/추정 등을 통해 해결한다. is.na()함수로 위치 찾음
2. 잡음: 변수값을 본래의 참값에서 벗어나게 하는 오류. 아래와 같은 평활화 방법들로 해결한다.
- 구간화: 연속 변수를 다수의 작은 구간으로 나누고, 동일한 구간에 속하는 변수값들을 하나의 변수값으로 변환하는 방법
- 군집화: 데이터 집합을 수 개의 군집으로 묶은 뒤 동일 군집의 데이터들을 그것의 대표값으로 치환하는 방법
- 회귀모형: 회귀모형을 추정하여 모형 위에 있는 변수값으로 변환하는 방법.
e) y=b0+b1x를 추정하고 x에 변수값을 입력하여 산출되는 y값들을 변수값으로 하는 변수를 생성하는 방법.
3. 이상치: 데이터 집합에서 대부분의 다른 샘플들과 현저한 차이를 보이는 샘플 혹은 변수값.
단순 오류이면 이상치 제거/무시, 정상 측정된 특이값이면 관심을 두고 분석을 수행한다.
728x90
728x90
'데이터베이스 DB' 카테고리의 다른 글
데이터 품질 요소, 데이터 무결성 (0) | 2020.08.16 |
---|---|
정형/비정형/반정형 데이터 차이 (0) | 2020.08.16 |
데이터 분석 모형 검증: 탐색적 분석 (0) | 2020.08.16 |
분석용 데이터 탐색 101 : 기초 통계기법 용어, 데이터 분석 기법 종류 (0) | 2020.08.16 |
분석용 데이터 탐색 101: 기본 용어, 표본 추출 기법, 척도 종류(질적/양적 속성) (0) | 2020.08.16 |
댓글