핵심 용어: 표본 추출, 분석 모형, 변수의 유의성, 데이터 정제, 데이터웨어하우스, 신뢰성, 정합성
모집단: 분석을 하기 위해 관심있는 대상 전체
모수: 모집단의 통계적 속성을 나타내는 수치. 평균, 분산… 다 여기 들어감.
표본 추출(sampling): 모집단의 부분 집합을 추출하는 것. 이때 추출된 표본은 모집단과 같은 대표성을 가졌다고 가정됨.
통계 분석: 표본이 가지고 있는 모집단 성질의 일부만을 가지고 모집단의 특성을 합리적으로 추론하는 것.
표본추출의 필요성: 모집단 전체에 대한 분석은 매우 비효율적이고 사실상 불가능하기 때문
<표본 추출 기법>
1. 단순 무작위 추출: 모집단에서 정해진 규칙 없이 표본을 추출하는 방식
2. 계통 추출: 모집단을 일정한 간격으로 추출하는 방식
3. 층화 추출: 모집단을 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식으로써 계층은 내부적으로 동질적이고, 외부적으로 이질적이어야 한다. ex) 지역별 여론조사용 추출 시 각 도에서 무작위로 100명 선정
4. 군집 추출: 모집단을 여러 군집으로 나누고, 일부 군집의 전체를 추출하는 방식. 군집의 성질은 고려x ex) 100개의 전구에 무작위로 검/빨/초록색을 칠하고 빨간색 전구를 모두 추출
측정: 관심 있는 대상을 분석 목적에 맞게 데이터화하는 것
척도: 관계를 부여하기 위해 사용되는 규칙
<척도의 종류>
1. 질적 속성
- 명목 척도: 단순히 집단의 분류를 목적으로 사용된 척도(=, =/=) ex) 메일 주소, 옷 색깔, 성별
- 순서 척도: 측정대상 사이의 대소 관계를 나타내기 위한 척도(<, >) ex) 직급, 영화 평점, 선호도
2. 양적 속성
- 구간 척도(=등간척도): 서열과 의미 있는 차이 ㅇ (+, -) ex) 온도, 지능지수
- 비율 척도: 구간 척도의 성질+척도 간의 비 (*, /) ex) 나이, 질량, 개수, 길이
=> 둘의 차이는 속성값들을 연산해서 의미 ox로 나뉨. 10도+10도=20도지만 10도 두 번 더한 것과 20도는 아무 상관이 없다.
200g+200g=400g 실제로 200의 질량이 2배면 400이 된다.
'데이터베이스 DB' 카테고리의 다른 글
데이터 분석 모형 검증: 탐색적 분석 (0) | 2020.08.16 |
---|---|
분석용 데이터 탐색 101 : 기초 통계기법 용어, 데이터 분석 기법 종류 (0) | 2020.08.16 |
tidyr 패키지가 하는 일, 함수들 (0) | 2020.03.20 |
dplyr 패키지 용도, 각 함수가 하는 일 (0) | 2020.03.20 |
R working directory가 중요한 이유: setwd() 함수 (0) | 2020.03.20 |
댓글