이론공부/ML

Catboost 모델 (배깅, 부스팅 간단 요약)

Zziii 2023. 4. 19. 13:43
728x90
반응형

bagging vs boosting

  • bagging은 랜덤하게 추출하여 parallel하게 학습 시키는 모델
  • boostiong 오분류율에따라 가중치를 주어서 학습시키는 모델
  • boosting은 가중치를 반영해야하기 때문에 랜덤하게 추출하여 sequential하게 학습시킴 

  • bagging 모델보단 boosting모델이 성능이 좋은편임
  • 하지만 sequential하게 학습시키기 때문에 느릴수 있음. 오버피팅 될 수 있다는 것도 단점

 

단점을 보완하기위해 속도 개선 로직을 포함한 boosting 모델이 많음

Catboost 모델도 속도 개선 로직을 포함한 모델 중 하나

 

Catboost

  • 범주형 데이터가 많을때 사용하면 좋은 모델
  • 다만, 수치형 데이터가 많을때는 lightgbm보다 속도가 느림
  • level-wise tree 모델
  • 잔차를 하나씩 늘려가며 예측하여 부스팅
  • target encoding (ex mean encoding)시 하나씩 늘려가며 예측하여 data leakage 막음
  • 파라미터에 크게 영향을 받지 않는 모델
  • 시계열 데이터를 효율적으로 처리하는 모델

 

 

 

728x90
반응형

'이론공부 > ML' 카테고리의 다른 글

DT vs RF  (1) 2025.01.03
let textNodes = document.querySelectorAll("div.tt_article_useless_p_margin.contents_style > *:not(figure):not(pre)"); textNodes.forEach(function(a) { a.innerHTML = a.innerHTML.replace(/`(.*?)`/g, '$1'); });