728x90
728x90
데이터 탐색 후 실질적으로 결과를 얻기 위한 단계로서 주로 머신러닝모델을 이용한다.
모델: 데이터의 패턴에 대한 가정
학습: 주어진 데이터로 최적 모델의 변수(파라미터)를 선정하거나 업뎃하는 과정
모델의 예측값은 편향과 분산을 따져볼 수 있는데,
편향: (예측값-실제값)의 평균
-> 편향이 좋다(작다): 모델의 예측값들이 목표점에 가까이 있다.
분산: 새로운 데이터가 들어왔을 때 모델의 예측값이 변하는 정도
-> 패턴을 과도하게 학습시키면 분산이 커진다: 과적합
편향과 분산 모두 최소화되는 지점은 없다.
=> 전체 오차(줄일 수 없는 오차 + 분산 + 편향)를 최소로 만드는 지점을 찾아야 한다.
기존의 데이터를 잘 예측하면서도(편향) 새로운 데이터도 잘 예측해야(분산) 하기 때문에.
728x90
728x90
'데이터베이스 DB' 카테고리의 다른 글
손실함수 loss function (0) | 2020.03.19 |
---|---|
Restrictive 모델 vs Flexible 모델 (0) | 2020.03.19 |
머신러닝의 분류 (0) | 2020.03.19 |
강인공지능, 약인공지능, 머신러닝, 딥러닝 (0) | 2020.03.19 |
ggplot geom_bar 색깔 제대로 입히기 (0) | 2020.03.13 |
댓글