10wk-39: 의사결정나무 Discussion

Author

최규빈

Published

November 10, 2023

1. 강의영상

- 의사결정나무 vs 선형모형

- 의사결정나무의 장점들

시각화가 유리하다. 설명력이 좋다.
특성(feature)의 중요도를 파악하기 용이하다.
\({\bf y} \sim {\bf X}\) 사이에 존재하는 비선형성을 쉽게 모델링 할 수 있다. \(\to\) 쉽게 말해서 잘 맞춘다는 소리에요
모형에 대한 가정들이 필요 없다. (넌파라메트릭 모형 특징)

- 의사결정나무의 단점: 오버피팅이 일어나기 너무 쉽다. (모형이 너무 흔들려..)

- 의사결정나무에 대한 자잘한 개념들 (자격증에서 잘 물어봄)

최소 샘플 분할(Min Samples Split):

가지치기(Pruning):

정보 이득(Information Gain):

지니 불순도(Gini Impurity):

결국 “트리를 어디까지 성장시킬래?”라는 물음에 대답하기 위해 고안된 개념들이다. 근본적으로 “트리를 어디까지 성장시킬래?”에 대한 이론적인 명확한 기술은 없다. 이는 넌파라메트릭 모형이 가지는 공통적인 특징임.

- 의사결정나무는 오버피팅을 잡기위해서 지루한 싸움을 시작함.

발전과정: 의사결정나무 \(\to\) 배깅, 랜덤포레스트, 부스팅
의사결정나무를 응용한 다양한 방법들이 개발되었다. (너무 많아요 진짜) \(\to\) 모든 방법들의 원리를 세세하게 파헤치는건 비효율적이다.
그러한 다양한 방법들을 적덩히 분류해보면 대체로 배깅, 랜덤포레스트, 부스팅 계열로 나뉜다.¹ \(\to\) 배깅, 랜덤포레스트, 부스팅에 대한 공통적 아이디어를 파악하는건 효율적이다.
현재 최고로 (state of the art, SOTA) 로 평가받는 알고리즘은 부스팅계열의 XGBoost, LightGBM, CatBoost 이다.

¹ 모든 방법들이 세개의 카테고리중 하나에만 들어가는건 아니다