본문 바로가기
정보처리기사/1과목: DB

데이터 관련 용어 정리

by tovantablack 2020. 8. 16.
728x90
728x90

Data = 자료 = 관찰이나 측정을 통해 수집한 단순 사실, 결과값. 가공되지 않은 Raw data를 Data라고 부른다. ex) 수치

Information = 정보 = 자료를 가공/처리해서 얻은 결과물로서, 의사 결정에 도움을 주는 애들 ex) 확률, 분산

Knowledge = 지식 = 정보 이용에 대한 노하우 ex) 비 올 확률 70프로면 우산 들고 다녀야 함

Wisdom = 지혜 = 지식을 활용한 창의적 아이디어 ex) 비 올 확률 70 프로 이상이면 매대 앞에 우산 꺼내놓기 

 

DataWare House 데이터웨어 하우스 = 데이터 창고 : 다양한 시스템에서 생성된 모델링/구조화된 데이터를 담아두는저장소. 다양한 사용 사례를 위한 다목적 스토리지. 이미 정형화된 데이터이기 때문에 비IT인력이 주도적으로 데이터 분석이 가능하다.

DataMart : 특정 부서/비지니스 기능을 위해 특별히 설계 및 구축된 데이터웨어 하우스의 하위 섹션. isolation에서 오는 보안 상 장점이 있다.

DataLake 데이터 레이크 : 이메일, 데이터 피드, 채팅 로그, 이미지 등 다양한 부분에서 생성된 모든 형태의 데이터를 보관, 모든 사용자를 수용, 변경 및 사용하기 쉬운 저장소. 다양한 형태의 raw 데이터를 모은 저장소의 집합이다. 그래서 숙련된 데이터 사용자들이 사용하여 다양하게 가공/재가공 및 분석하기 용이하지만 데이터 전처리 과정에 많은 시간이 소요되는 단점이 있음.

 

Data Mining : 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여 이를 의사결정에 이용하는 과정

 

Data Literacy 데이터 리터러시 : 정보활용능력. 데이터를 읽고 그 안에 숨겨진 의미를 파악하는 해독 능력

마이데이터 : 개인이 자신의 정보를 관리/통제하고 이 정보를 업체에 제공해 맞춤 서비스를 추천받는 등 능동적으로 활용하는 것

 

Big Data : 데이터의 생성 양(수십 테라~ 수십 페타 이상), 주기, 형식 등이 기존 DB 관리도구의 역량을 넘어서는 데이터로서, 다양한 종류의 대규모 데이터로서 저렴한 비용으로 가치 추출이 가능하다. 3대 요소인 Volume 크기, Velocity 속도, Variety 다양성(정형 반정형 비정형) 중 2가지 이상 충족되면 빅데이터임. 

정형 데이터 : 일정한 형식을 갖춰 고정된 필드에 저장되는 데이터. ex) 엑셀의 CSV, RDB

반정형 데이터 : 메타 데이터나 스키마같은 형태가 있지만 연산은 불가능한 데이터. ex) XML, HTML, JSON..

비정형 데이터 : 형태도 없고 연산도 불가능한 데이터.  ex) 사진, 동영상, 대화내용, GPS 정보, 소셜데이터(SNS)

Hadoop 하둡 : 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크

 

LOD Linked Open Data 개방형 연계 데이터 : 웹이서 누구나 사용할 수 있도록 무료로 공개되는 연계 데이터

Data Ops 데이터 옵스 : 데이터 분석과 현장 워크플로우의 결합으로 기능 교차 방식을 데이터 분석에 사용하는 것

망 중립성 : 모든 사용자에게 동등하며 차별없이 데이터를 제공해야 한다는 원칙.

 

Holdout Data : 학습 중에 의도적으로 사용하지 않은 데이터. ex) training data set / test data set

Annotation 어노테이션 : 원래는 @Override처럼 컴파일러를 위한 정보제공을 하기 위한 주석의 의미이지만, 데이터에서는 데이터 라벨링으로 데이터 가공 과정에서 알맞은 메타 데이터를 부여하는 것이다.

시계열 데이터 : 서로 다른 여러 시점에 기록된 데이터. ex) 겨울 코트 매출액을 날짜 별로 기록한 데이터

728x90
728x90

댓글