본문 바로가기

728x90
반응형
데이터베이스 DB
728x90
반응형
45

통계 기반 데이터 분석: 가설, 가설 검정 방법 종류, 가설검증의 오류 가설: 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론 귀무가설: 현재까지 주장되어 온 것이거나 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설. 대립가설과 반대되는 가설임. =H0 대립가설: 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설. =연구가설=H1 가설검정: 표본을 활용하여 모집단에 대입해보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정. 대부분의 귀무가설이 참이라는 전제하여 표본을 통해 귀무가설이 옳지 않다는 것을 보임으로써 귀무가설을 기각시키고 대신 대립가설을 채택하게 된다. 양측검정 단측검정 제1종 오류: 귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류 - 유의수준: 제1종 오류를 범할 최대 허용확률. =알파 - 신뢰수준: 귀무가설이.. 2020. 8. 16.
분석용 데이터 101: 홀드아웃 교차 방법, 다중 교차 방법 데이터 집합을 서로 겹치지 않는 훈련 집합과 시험 집합으로 무작위로 구분한 후, 훈련 집합을 이용하여 분석 모형을 구축하고 시험 집합을 이용하여 분석 모형의 성능을 평가하는 기법 계산량이 많지 않아 모형을 쉽게 평가할 수 있지만 모형 평가 결과가 training set과 test set의 구성에 의존적이라는 단점을 갖는다. 데이터 집합을 무작위로 동일 크기를 갖는 k개의 부분 집합으로 나누고, 그중 1개를 시험집합으로, 나머지 k-1개를 훈련 집합으로 선정하여 모든 부분 집합들을 시험 집합으로 1회씩 선정하여 총 k번 반복한다. 모든 데이터 집합을 훈련&시험 집합으로 사용하기 때문에 분석 모형의 평가 결과가 편향되지 않는다는 장점이 있다. 2020. 8. 16.
데이터 비식별화 데이터 비식별화: 데이터에 포함된 개인정보를 삭제하거나 다른 정보로 대체하여 데이터 내에서 특정 개인을 식별하지 못하게 하기 위해 개인정보를 어려운 데이터로 가공하는 과정. 개인정보: 이름, 주민, DNA처럼 특정 개인을 식별할 가능성을 내포한 데이터. 1. 소비자, 컴퓨터 또는 다른 장치와 결합할 수 있는 개인정보는 반드시 비식별화 2. 공개된 정보에 대해서는 재식별화 시도 금지 3. 타 기업 등에 비식별화된 데이터 제공 시 데이터를 재식별화하지 않도록 계약상 명시 가명처리: 식별 가능한 변수값을 다른 값으로 대체. e. 조이름 -> 김별명 총계처리: 데이터를 총합하거나 평균을 사용. e. A연봉:5천만, B:8천만 -> 평균 연봉6500만 데.. 2020. 8. 16.
데이터 품질 요소, 데이터 무결성 정확성: 저장된 데이터는 대상을 올바로 나타내는 값을 가져야 함 완전성: 데이터는 결측치, 빈값, 오류를 가지지 않아야 함 적시성: 시간이 지나면서 의미가 소멸하는 데이터에 대한 품질 요소로 SNS 데이터, 위치 데이터, 로그 데이터는 그 의미가 유효한 시간 정보를 내포해야 함 일관성: 데이터가 용어 정의, 규정, 속성 정의, 데이터 형식 등에서 일관된 포맷을 가져야 함 데이터 무결성: 다수의 사용자가 데이터베이스에 접근하여 적재, 삽입, 삭제, 수정 등의 작업을 수행할 때 데이터가 불일치하지 않는 특성. 1. 개체 무결성: 기본 키는 반드시 값을 가지며 그 값은 유일해야 함 2. 참조 무결성: 외래 키값은 참조하는 테이블의 기본 키값 혹은 빈값 중 하나를 가져야 함 3. 속성 무결성: 속성값은 지정된 .. 2020. 8. 16.
정형/비정형/반정형 데이터 차이 정형데이터: 통계적 분석을 수행할 수 있는 테이블 형태로 정리된 데이터 비정형데이터: 특별한 형식을 가지지 않는 텍스트, 이미지, 오디오와 같은 원시 데이터 - 형태와 구조가 복잡하여 기존의 DB에 저장될 수 없다. 정형 데이터로 변환되어 분석해야 한다. 반정형 데이터: 규격화된 형식을 가지지 않는 웹 문서, 신문과 같은 데이터. 주로 XML, JSON 포맷 - 데이터 속성을 표기하는 메타데이터를 가지며 데이터 구조는 일관성이 없으므로 테이블의 형식을 하고 있어도 샘플들의 속성 순서가 모두 다를 수 있다. 2020. 8. 16.