IT 기술/인공지능
의사결정나무 (Decision Tree)
gooooooood
2024. 10. 8. 14:45
반응형
1. 나무 구조의 분류 및 예측 분석 모델, 의사결정나무의 개념
정의 | - 의사 결정에 대한 규칙을 나무 구조로 나타내어 전체 자료를 분류하거나 예측을 수행하는 분석 모델 | |
구성요소 | root node | - 의사결정나무가 시작되는 노드 |
parent node | - child 노드의 상위 노드 | |
child node | - 하나의 마디로부터 분리되어 나간 2개 이상의 노드 | |
terminal node | - 더 이상 분리되지 않는 최종 노드 | |
branch | - root node부터 terminal node까지 연결된 node | |
depth | - root node부터 terminal node까지 node 들의 수 |
2. 의사결정나무의 불순도 및 분석 프로세스
가. 의사결정나무의 불순도
구분 | 수식 | 설명 |
지니 지수 | ![]() |
- 불순도 측정 지수, 얼마나 다양한 데이터가 섞여있는지 정도 - 지니 지수가 0이면 모든 데이터가 균일 |
엔트로피 지수 |
![]() |
- 모델 예측 값과 실제 값 간의 절대오차의 평균 - 엔트로피가 높으면 불순도가 높다는 의미 |
정보 획득 | ![]() |
- 전체 엔트로피와 분할 후 엔트로피의 차이 - 정보 획득이 없을 때까지 트리 생성 |
나. 의사결정나무 분석 프로세스
구분 | 세부 내용 | 설명 |
설계 | 의사결정나무 형성 | - 목표 변수를 가장 잘 분류할 수 있는 분리 기준 설정 - 최종 끝마디가 되는 정지 규칙 설정 |
분석 | 가지치기 | - 분류 오류가 발생할 수 있거나 부적절한 추론 규칙을 가진 가지 제거 |
타당성 평가 | - 교차타당성 (Cross Validation)을 이용하여 의사결정나무 평가 | |
결론 | 해석 및 예측 | - 구축된 나무모형 해석, 분류 및 예측 적용 |
3. 의사결정나무 알고리즘
알고리즘 | 정의 | 특징 |
ID3 | - 반복적으로 이분하는 알고리즘 | - 불순도 지수로 엔트로피 지수 사용 - 엔트로피 작게하는 방향으로 진행 - 독립변수가 모두 범주형일 때 가능 |
C4.5 | - 기존의 ID3 알고리즘 개선 | - 정교한 불순도 지표 활용 - 범주형 뿐 아니라 연속형 변수 사용 가능 - 결측치 포함 데이터 사용 가능 |
CART (Classification And Regression Tree) |
- 분류와 회귀 모두 가능한 알고리즘 | - 불순도 지수로 지니 지수 사용 - 의사결정나무를 모두 이진트리로 구성 |
CHAID (Chi-Squared Automatic Interaction Detection) |
- 카이제곱 또는 F-검정 활용 분류 | - 수치형, 범주형 변수 모두 활용 가능 - 이지 분리, 다지 분리 모두 활용 가능 |
4. 의사결정나무 활용 기반 알고리즘
- 의사결정나무를 기반으로 보팅, 배깅, 부스팅 기법을 사용해 다양한 머신러닝 분석 모델로 활용
반응형