반응형

1. 나무 구조의 분류 및 예측 분석 모델, 의사결정나무의 개념

정의 - 의사 결정에 대한 규칙을 나무 구조로 나타내어 전체 자료를 분류하거나 예측을 수행하는 분석 모델
구성요소 root node - 의사결정나무가 시작되는 노드
parent node - child 노드의 상위 노드
child node - 하나의 마디로부터 분리되어 나간 2개 이상의 노드
terminal node - 더 이상 분리되지 않는 최종 노드
branch - root node부터 terminal node까지 연결된 node
depth - root node부터 terminal node까지 node 들의 수

 

2. 의사결정나무의 불순도 및 분석 프로세스

가. 의사결정나무의 불순도

구분 수식 설명
지니 지수

- 불순도 측정 지수, 얼마나 다양한 데이터가 섞여있는지 정도
- 지니 지수가 0이면 모든 데이터가 균일
엔트로피
지수
- 모델 예측 값과 실제 값 간의 절대오차의 평균
- 엔트로피가 높으면 불순도가 높다는 의미
정보 획득
 - 전체 엔트로피와 분할 후 엔트로피의 차이
- 정보 획득이 없을 때까지 트리 생성

 

나. 의사결정나무 분석 프로세스

구분 세부 내용 설명
설계 의사결정나무 형성 - 목표 변수를 가장 잘 분류할 수 있는 분리 기준 설정
- 최종 끝마디가 되는 정지 규칙 설정
분석 가지치기 - 분류 오류가 발생할 수 있거나 부적절한 추론 규칙을 가진 가지 제거
타당성 평가 - 교차타당성 (Cross Validation)을 이용하여 의사결정나무 평가
결론 해석 및 예측 - 구축된 나무모형 해석, 분류 및 예측 적용

 

3. 의사결정나무 알고리즘

알고리즘 정의 특징
ID3 - 반복적으로 이분하는 알고리즘 - 불순도 지수로 엔트로피 지수 사용
- 엔트로피 작게하는 방향으로 진행
- 독립변수가 모두 범주형일 때 가능
C4.5 - 기존의 ID3 알고리즘 개선 - 정교한 불순도 지표 활용
- 범주형 뿐 아니라 연속형 변수 사용 가능
- 결측치 포함 데이터 사용 가능
CART
(Classification And Regression Tree)
- 분류와 회귀 모두 가능한 알고리즘 - 불순도 지수로 지니 지수 사용
- 의사결정나무를 모두 이진트리로 구성
CHAID
(Chi-Squared Automatic Interaction Detection)
- 카이제곱 또는 F-검정 활용 분류 - 수치형, 범주형 변수 모두 활용 가능
- 이지 분리, 다지 분리 모두 활용 가능

 

4. 의사결정나무 활용 기반 알고리즘

- 의사결정나무를 기반으로 보팅, 배깅, 부스팅 기법을 사용해 다양한 머신러닝 분석 모델로 활용

반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

시계열 분석  (1) 2024.10.11
RNN과 LSTM  (0) 2024.10.11
CNN  (0) 2024.10.11
결측값 / 이상값  (0) 2024.10.08
이미지 데이터 어노테이션  (1) 2024.10.08
반응형

1. 누락된 데이터 값, 데이터 결측값

가. 결측값의 정의

- 데이터 수집 및 처리 과정에서 정보 손실, 연구 대상 무응답 등 여러 원인으로 발생한 데이터 누락 값

 

나. 결측값의 종류 및 처리 방법

구분 항목 설명
결측값
종류
완전 무작위 결측 - 다른 값에 영향 받지 않고 완전히 무작위로 발생
- 모든 정보가 데이터 분석에 문제가 되지 않는 경우
무작위 결측 - 결측이 다른 변수에 따라 조건부로 결측이 발생
- 특정 변수 결측 여부가 자료 내 타 변수와 관련 있는 경우
비무작위 결측 - 결측 여부가 해당 변수의 값에 의해 결정되어 발생
- 무작위가 아니라 주도면밀한 추가 조사가 필요
결측값
처리 방법
제거법 - 완전 제거법: 불완전 자료 무시, 완전 관측 자료만 분석
- 한쌍 제거법: 결측치 변수만 해당 분석에서 제외
단순 대치법 - 평균 대체 방법: 관측치의 평균값으로 대체
- 연역적 대체 방법: 논리적으로 유추하여 대체
- 일치 대응 대체 방법: 다른 조사 자료에서 추출하여 대채
다중 대치법 - 단순 대치법의 오차 및 난해성 보안을 위한 방법
- m 번의 대치를 통한 m 개의 가상 완전 자료 만들어 분석
- 대치, 분석, 결합 3단계로 구성

- 결측값 발생시 연구 신뢰도 감소 및 편향 발생으로 적절한 조치 필요

 

2. 정상 범위를 벗어난 데이터, 데이터 이상값

가. 이상값의 정의

- 각 변수의 분포에서 비정상적으로 분포를 벗어나는 극단적인 값

 

나. 이상값의 검출 방법 및 처리 방법

구분 항목 설명
이상값
검출 방법
통계 기법 - Z-Score: 평균에서 3 표준편차(0.15%) 이상 떨어진 값
- 기하평균: 기하평균에서 2.5 표준편차 이상 떨어진 값
- 사분위수 활용: Q1, Q3 기준 사분위범위의 1.5배 이상 떨어진 값
시각화 - 전체 데이터에 대해서 시각화하여 이상값 검출
- 확률 밀도함수, 히스토그램, 시계열차트, 산점도
머신러닝 기법 - 클러스터링 기법, 의사결정 나무 활용하여 이상값 검출
이상값
처리 방법
삭제 - 이상값으로 판단되는 관측값 제외 후 분석
변환 - 자연 로그를 취해 값 차이를 감소시켜 실제값 변형
대체 - 정상 범위에서 하한값보다 작으면 하한값으로, 상한값보다 크면 상한값으로 대체

- 이상값 발생시 편향으로 과대 또는 과소 추정이 발생하므로 적절한 조치 필요

 

반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

시계열 분석  (1) 2024.10.11
RNN과 LSTM  (0) 2024.10.11
CNN  (0) 2024.10.11
의사결정나무 (Decision Tree)  (1) 2024.10.08
이미지 데이터 어노테이션  (1) 2024.10.08
반응형

1. 컴퓨터 비전 데이터 라벨링, 이미지 데이터 어노테이션의 정의

- 인공지능 모델을 학습시키기 위한 학습 데이터 생성 과정에서 이미지 데이터에 레이블을 추가하는 과정

 

2. 이미지 데이터 어노테이션 유형 및 기법

가. 이미지 데이터 어노테이션 유형

유형 특징 설명
이미지 분류 사진 자체 클래스 분류 - 이미지 자체를 하나의 객체로 보고 분류
- 객체를 하나의 클래스로 분류하는 방법
객체 탐지 사진 내 객체 클래스 분류 - 이미지내 둘 이상의 객체 분류하는 방법
- 이미지내 관심 객체 식별한 뒤 클래스 분류
객체 분할 사진 내 객체 정밀 분류 - 이미지내 다중 객체들 간의 위치 뿐 아니라
객체 모서리(edge)를 찾아 클래스 분류

 

나. 이미지 데이터 어노테이션 기법

기법 특징 설명
바운딩 박스 - 빠른 데이터 가공 - 이미지 혹은 영상안 객체의 가장자리에 맞춘 사각형 틀 그려 캡쳐
폴리곤 - 객체 크기 정확히 인식 - 객체 테두리의 모든 지점을 표시해 객체를 인식하는 방법
폴리라인 - 직선, 곡선 추적 목적 - 지도 및 도로와 같이 시작 종료가 없는 형태 추적시 사용 기법
포인트 - 간단한 작업 - 이미지 속 객체의 개수 계산 방법으로 단일 픽셀을 찾아낼 때 사용
큐보이드 - 3D 환경에서 객체 식별 - 바운딩 박스와 유사하지만 3D환경에서 길이, 너비, 폭까지 인식
시맨틱
세그멘테이션
- 모든 픽셀 대상 작업 - 이미지의 모든 픽셀을 채색하여 객체간 정밀하게 클래스 분류하는 기법
반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

시계열 분석  (1) 2024.10.11
RNN과 LSTM  (0) 2024.10.11
CNN  (0) 2024.10.11
의사결정나무 (Decision Tree)  (1) 2024.10.08
결측값 / 이상값  (0) 2024.10.08

+ Recent posts