본문 바로가기
데이터베이스 DB

머신러닝 모델링

by tovantablack 2020. 3. 19.
728x90
728x90

데이터 탐색 후 실질적으로 결과를 얻기 위한 단계로서 주로 머신러닝모델을 이용한다.

 

모델: 데이터의 패턴에 대한 가정

학습: 주어진 데이터로 최적 모델의 변수(파라미터)를 선정하거나 업뎃하는 과정

 

모델의 예측값은 편향과 분산을 따져볼 수 있는데,

편향: (예측값-실제값)의 평균

 -> 편향이 좋다(작다): 모델의 예측값들이 목표점에 가까이 있다.

분산: 새로운 데이터가 들어왔을 때 모델의 예측값이 변하는 정도

 -> 패턴을 과도하게 학습시키면 분산이 커진다: 과적합

 

편향과 분산 모두 최소화되는 지점은 없다.

=> 전체 오차(줄일 수 없는 오차 + 분산 + 편향)를 최소로 만드는 지점을 찾아야 한다.

기존의 데이터를 잘 예측하면서도(편향) 새로운 데이터도 잘 예측해야(분산) 하기 때문에.

728x90
728x90

댓글