본문 바로가기
데이터베이스 DB

분석용 데이터 탐색 101: 기본 용어, 표본 추출 기법, 척도 종류(질적/양적 속성)

by tovantablack 2020. 8. 16.
728x90
728x90

핵심 용어: 표본 추출, 분석 모형, 변수의 유의성, 데이터 정제, 데이터웨어하우스, 신뢰성, 정합성

 

모집단: 분석을 하기 위해 관심있는 대상 전체

모수: 모집단의 통계적 속성을 나타내는 수치. 평균, 분산다 여기 들어감.

표본 추출(sampling): 모집단의 부분 집합을 추출하는 것. 이때 추출된 표본은 모집단과 같은 대표성을 가졌다고 가정됨.

통계 분석: 표본이 가지고 있는 모집단 성질의 일부만을 가지고 모집단의 특성을 합리적으로 추론하는 것.

 

표본추출의 필요성: 모집단 전체에 대한 분석은 매우 비효율적이고 사실상 불가능하기 때문

 

<표본 추출 기법>

1. 단순 무작위 추출: 모집단에서 정해진 규칙 없이 표본을 추출하는 방식

2. 계통 추출: 모집단을 일정한 간격으로 추출하는 방식

3. 층화 추출: 모집단을 여러 계층으로 나누고, 계층별로 무작위 추출을 수행하는 방식으로써 계층은 내부적으로 동질적이고, 외부적으로 이질적이어야 한다.  ex) 지역별 여론조사용 추출 시 각 도에서 무작위로 100명 선정

4. 군집 추출: 모집단을 여러 군집으로 나누고, 일부 군집의 전체를 추출하는 방식. 군집의 성질은 고려x ex) 100개의 전구에 무작위로 검//초록색을 칠하고 빨간색 전구를 모두 추출

 

측정: 관심 있는 대상을 분석 목적에 맞게 데이터화하는 것

척도: 관계를 부여하기 위해 사용되는 규칙

<척도의 종류>

1. 질적 속성

- 명목 척도: 단순히 집단의 분류를 목적으로 사용된 척도(=, =/=) ex) 메일 주소, 옷 색깔, 성별

- 순서 척도: 측정대상 사이의 대소 관계를 나타내기 위한 척도(<, >) ex) 직급, 영화 평점, 선호도

2. 양적 속성

- 구간 척도(=등간척도): 서열과 의미 있는 차이 ㅇ (+, -) ex) 온도, 지능지수

- 비율 척도: 구간 척도의 성질+척도 간의 비 (*, /) ex) 나이, 질량, 개수, 길이

=> 둘의 차이는 속성값들을 연산해서 의미 ox로 나뉨. 10+10=20도지만 10도 두 번 더한 것과 20도는 아무 상관이 없다.

200g+200g=400g 실제로 200의 질량이 2배면 400이 된다.

728x90
728x90

댓글