본문 바로가기

728x90
반응형
데이터베이스 DB
728x90
반응형
45

데이터 오류 종류 1. 결측치 NA : 샘플에서 누락된 변수값. 결측치는 오류로 인해 발생할 수도 있지만, 단순히 조사 대상이 측정을 원하지 않을 때에도 발생한다. 이때, 샘플 제거, 해당 변수 제거, 결측치 무시/추정 등을 통해 해결한다. is.na()함수로 위치 찾음 2. 잡음: 변수값을 본래의 참값에서 벗어나게 하는 오류. 아래와 같은 평활화 방법들로 해결한다. - 구간화: 연속 변수를 다수의 작은 구간으로 나누고, 동일한 구간에 속하는 변수값들을 하나의 변수값으로 변환하는 방법 - 군집화: 데이터 집합을 수 개의 군집으로 묶은 뒤 동일 군집의 데이터들을 그것의 대표값으로 치환하는 방법 - 회귀모형: 회귀모형을 추정하여 모형 위에 있는 변수값으로 변환하는 방법. e) y=b0+b1x를 추정하고 x에 변수값을 입력하여.. 2020. 8. 16.
데이터 분석 모형 검증: 탐색적 분석 일반화 오류: 분석 모형을 만들 때 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류 => 과적합(overfitting)의 사례 훈련 오류: 주어진 데이터 집합에 부차적인 특성과 잡음(노이즈)가 있다는 것을 고려하여 그것의 특성을 덜 반영하도록 만들어 생기는 오류 => 미적합(underfitting)의 사례 두 오류를 모두 고려한 분석 모형 검증방법: 홀드아웃 교차검증, 다중교차검증 RMSE: 추정치와 실제값 간의 차이를 나타내기 위한 척도. 오차평균에 제곱근을 씌운다. yt hat = t번째 실제값. yt = t번째 측정치 R코딩식 ㄱ sum(abs(s_te[,7]-lrm(s_te[,7]-)))/sqrt(nrow(s_te)) 시뮬레이션: 현실을 부분적으로 모사하는 모형을 통해 가능한 상황들에.. 2020. 8. 16.
분석용 데이터 탐색 101 : 기초 통계기법 용어, 데이터 분석 기법 종류 1. 평균: 분포가 대칭일 때 데이터 집합의 중앙이 어딘지 알 수 있는 지표. (데이터의 합)/개수 2. 중앙값: 크기에 따라 차례로 나열했을 때 가운데 값. n이 홀수면 (n+1)/2번째 값 평균에 비해 이상치에 의한 영향을 덜 받으며 데이터 분포가 비대칭일 때 평균보다 유의미 3. 최빈치: 데이터 집합에서 가장 많은 빈도를 갖는 값. 중앙값이랑 같은 속성! 4. 분산: 평균으로부터 각각의 데이터가 얼마나 떨어져 있는지를 종합적으로 나타내는 지표. =(각 데이터 – 평균)^2의 합/(n-1) R에서 var() 함수 써서 구함 평균이 포함되어있고 제곱해서 이상치 매우 민감. 본래 데이터의 속성값과도 다른 단위 5. 표준편차: 분산의 단위를 본래의 척도와 맞춰주기 위해 분산을 제곱근한 것(루트씌운) R에서.. 2020. 8. 16.
분석용 데이터 탐색 101: 기본 용어, 표본 추출 기법, 척도 종류(질적/양적 속성) 핵심 용어: 표본 추출, 분석 모형, 변수의 유의성, 데이터 정제, 데이터웨어하우스, 신뢰성, 정합성 모집단: 분석을 하기 위해 관심있는 대상 전체 모수: 모집단의 통계적 속성을 나타내는 수치. 평균, 분산… 다 여기 들어감. 표본 추출(sampling): 모집단의 부분 집합을 추출하는 것. 이때 추출된 표본은 모집단과 같은 대표성을 가졌다고 가정됨. 통계 분석: 표본이 가지고 있는 모집단 성질의 일부만을 가지고 모집단의 특성을 합리적으로 추론하는 것. 표본추출의 필요성: 모집단 전체에 대한 분석은 매우 비효율적이고 사실상 불가능하기 때문 1. 단순 무작위 추출: 모집단에서 정해진 규칙 없이 표본을 추출하는 방식 2. 계통 추출: 모집단을 일정한 간격으로 추출하는 방식 3. 층화 추출: 모집단을 여러 계.. 2020. 8. 16.
ORM, JPA ORM은 자동으로 1대1 매핑을 해줌 모든 클래스를 모든 테이블이랑 매핑해주는 거 ORM 중 대표적인 애가 JPA JDBA는 자바에서 디비 프밍을 하기 위한 API 2020. 6. 4.