본문 바로가기
데이터베이스 DB

데이터 오류 종류

by tovantablack 2020. 8. 16.
728x90
728x90

 

1. 결측치 NA : 샘플에서 누락된 변수값. 결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생한다. 이때, 샘플 제거, 해당 변수 제거, 결측치 무시/추정 등을 통해 해결한다. is.na()함수로 위치 찾음

2. 잡음: 변수값을 본래의 참값에서 벗어나게 하는 오류. 아래와 같은 평활화 방법들로 해결한다.

- 구간화: 연속 변수를 다수의 작은 구간으로 나누고, 동일한 구간에 속하는 변수값들을 하나의 변수값으로 변환하는 방법

- 군집화: 데이터 집합을 수 개의 군집으로 묶은 뒤 동일 군집의 데이터들을 그것의 대표값으로 치환하는 방법

- 회귀모형: 회귀모형을 추정하여 모형 위에 있는 변수값으로 변환하는 방법.

e) y=b0+b1x를 추정하고 x에 변수값을 입력하여 산출되는 y값들을 변수값으로 하는 변수를 생성하는 방법.

3. 이상치: 데이터 집합에서 대부분의 다른 샘플들과 현저한 차이를 보이는 샘플 혹은 변수값.

단순 오류이면 이상치 제거/무시, 정상 측정된 특이값이면 관심을 두고 분석을 수행한다.

728x90
728x90

댓글