728x90
반응형
bagging vs boosting
- bagging은 랜덤하게 추출하여 parallel하게 학습 시키는 모델
- boostiong 오분류율에따라 가중치를 주어서 학습시키는 모델
- boosting은 가중치를 반영해야하기 때문에 랜덤하게 추출하여 sequential하게 학습시킴
- bagging 모델보단 boosting모델이 성능이 좋은편임
- 하지만 sequential하게 학습시키기 때문에 느릴수 있음. 오버피팅 될 수 있다는 것도 단점
단점을 보완하기위해 속도 개선 로직을 포함한 boosting 모델이 많음
Catboost 모델도 속도 개선 로직을 포함한 모델 중 하나
Catboost
- 범주형 데이터가 많을때 사용하면 좋은 모델
- 다만, 수치형 데이터가 많을때는 lightgbm보다 속도가 느림
- level-wise tree 모델
- 잔차를 하나씩 늘려가며 예측하여 부스팅
- target encoding (ex mean encoding)시 하나씩 늘려가며 예측하여 data leakage 막음
- 파라미터에 크게 영향을 받지 않는 모델
- 시계열 데이터를 효율적으로 처리하는 모델
728x90
반응형