머신러닝 모델링

728x90

데이터 탐색 후 실질적으로 결과를 얻기 위한 단계로서 주로 머신러닝모델을 이용한다.

모델: 데이터의 패턴에 대한 가정

학습: 주어진 데이터로 최적 모델의 변수(파라미터)를 선정하거나 업뎃하는 과정

모델의 예측값은 편향과 분산을 따져볼 수 있는데,

편향: (예측값-실제값)의 평균

-> 편향이 좋다(작다): 모델의 예측값들이 목표점에 가까이 있다.

분산: 새로운 데이터가 들어왔을 때 모델의 예측값이 변하는 정도

-> 패턴을 과도하게 학습시키면 분산이 커진다: 과적합

편향과 분산 모두 최소화되는 지점은 없다.

=> 전체 오차(줄일 수 없는 오차 + 분산 + 편향)를 최소로 만드는 지점을 찾아야 한다.

기존의 데이터를 잘 예측하면서도(편향) 새로운 데이터도 잘 예측해야(분산) 하기 때문에.

728x90

손실함수 loss function (0)	2020.03.19
Restrictive 모델 vs Flexible 모델 (0)	2020.03.19
머신러닝의 분류 (0)	2020.03.19
강인공지능, 약인공지능, 머신러닝, 딥러닝 (0)	2020.03.19
ggplot geom_bar 색깔 제대로 입히기 (0)	2020.03.13

Programming: LoveAndHate