반응형

1. 나무 구조의 분류 및 예측 분석 모델, 의사결정나무의 개념

정의 - 의사 결정에 대한 규칙을 나무 구조로 나타내어 전체 자료를 분류하거나 예측을 수행하는 분석 모델
구성요소 root node - 의사결정나무가 시작되는 노드
parent node - child 노드의 상위 노드
child node - 하나의 마디로부터 분리되어 나간 2개 이상의 노드
terminal node - 더 이상 분리되지 않는 최종 노드
branch - root node부터 terminal node까지 연결된 node
depth - root node부터 terminal node까지 node 들의 수

 

2. 의사결정나무의 불순도 및 분석 프로세스

가. 의사결정나무의 불순도

구분 수식 설명
지니 지수

- 불순도 측정 지수, 얼마나 다양한 데이터가 섞여있는지 정도
- 지니 지수가 0이면 모든 데이터가 균일
엔트로피
지수
- 모델 예측 값과 실제 값 간의 절대오차의 평균
- 엔트로피가 높으면 불순도가 높다는 의미
정보 획득
 - 전체 엔트로피와 분할 후 엔트로피의 차이
- 정보 획득이 없을 때까지 트리 생성

 

나. 의사결정나무 분석 프로세스

구분 세부 내용 설명
설계 의사결정나무 형성 - 목표 변수를 가장 잘 분류할 수 있는 분리 기준 설정
- 최종 끝마디가 되는 정지 규칙 설정
분석 가지치기 - 분류 오류가 발생할 수 있거나 부적절한 추론 규칙을 가진 가지 제거
타당성 평가 - 교차타당성 (Cross Validation)을 이용하여 의사결정나무 평가
결론 해석 및 예측 - 구축된 나무모형 해석, 분류 및 예측 적용

 

3. 의사결정나무 알고리즘

알고리즘 정의 특징
ID3 - 반복적으로 이분하는 알고리즘 - 불순도 지수로 엔트로피 지수 사용
- 엔트로피 작게하는 방향으로 진행
- 독립변수가 모두 범주형일 때 가능
C4.5 - 기존의 ID3 알고리즘 개선 - 정교한 불순도 지표 활용
- 범주형 뿐 아니라 연속형 변수 사용 가능
- 결측치 포함 데이터 사용 가능
CART
(Classification And Regression Tree)
- 분류와 회귀 모두 가능한 알고리즘 - 불순도 지수로 지니 지수 사용
- 의사결정나무를 모두 이진트리로 구성
CHAID
(Chi-Squared Automatic Interaction Detection)
- 카이제곱 또는 F-검정 활용 분류 - 수치형, 범주형 변수 모두 활용 가능
- 이지 분리, 다지 분리 모두 활용 가능

 

4. 의사결정나무 활용 기반 알고리즘

- 의사결정나무를 기반으로 보팅, 배깅, 부스팅 기법을 사용해 다양한 머신러닝 분석 모델로 활용

반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

시계열 분석  (1) 2024.10.11
RNN과 LSTM  (0) 2024.10.11
CNN  (0) 2024.10.11
결측값 / 이상값  (0) 2024.10.08
이미지 데이터 어노테이션  (1) 2024.10.08

+ Recent posts