정의
- 부스팅(Boosting)을 할 때 경사하강법(Gradient Descent)을 이용해 순차적 탐색하여 틀린 것에 가중치를 부여하는 것을 병렬처리 기반으로 수행하는 인공지능 알고리즘
키워드
- 틀린 것에 가중치, 병렬처리, 과적합 규제, 유사도 점수, 이득
메커니즘
기술요소
파라미터
유사도 점수(Similarity Score)
- 초기 예측치에 따라 트리를 분기하고 각 분기된 Leaf의 유사도 계산
- 람다: 과적합을 방지하는 정규화 매개번수
이득(Gain)
- 트리 가지의 유사도 점수를 모두 더한 값
- 이득이 트리의 가지를 유지
- (각 Leaf의 유사도 점수 합) - Root의 유사도 점수
하이퍼 파라미터
일반파라미터
- 부스팅을 수행할 때 트리를 사용할지, 선형 모델을 사용할지 선택
[R에서 사용하는 일반 파라미터 명령어]
- booster: 어떤 부스터 구조를 쓸지 결정
- nthread: 몇 개의 쓰레드를 동시에 처리하도록 결정
- num_feature: feature 차원의 숫자를 정해야 하는 경우 셋팅
부스터 파라미터
- 선택한 부스터에 따라 적용할 수 있는 파라미터
[R에서 사용하는 부스터 파라미터 명령어]
- eta: 학습률(learning rate), 부스팅 스탭마다 가중치를 주어 과적합 방지
- max_depth: 한 트리의 최대 깊이, 높은 숫자 일수록 모델이 복잡도가 커지고 높은 과적합 발생
학습과정 파라미터
- 학습 시나리오를 결정
[R에서 사용하는 학습과정 파라미터 명령어]
- objective: 목적함수(reg, binary, count 등)
- eval_metric: 모델의 평가 함수를 조정하는 함수
참고
항목 | XGBoost | GBM(Gradient Boost Machine)
처리 순서 | 병렬처리 구조 | 순차적 모델 생성
가지치기 방식| Level-wise 방식 | Leaf-wise(Best-first) 방식
성능 | 높은 학습 속도 | 상대적 느린 학습 속도
기능 제공 | 규제 기능, 결측치 처리 기능 제공 | 제한된 기능
'Professional Engineer > AI' 카테고리의 다른 글
GNN(Graph Neural Network) (0) | 2024.09.20 |
---|---|
SNN(Spiking Neural Network) (0) | 2024.09.20 |
Random Forest 와 Adaboost (0) | 2024.09.20 |
연합학습(Federated Learning) (0) | 2024.09.20 |
유사도(Similarity) (0) | 2024.09.20 |
댓글