IT 기술/인공지능

결측값 / 이상값

gooooooood 2024. 10. 8. 13:50
반응형

1. 누락된 데이터 값, 데이터 결측값

가. 결측값의 정의

- 데이터 수집 및 처리 과정에서 정보 손실, 연구 대상 무응답 등 여러 원인으로 발생한 데이터 누락 값

 

나. 결측값의 종류 및 처리 방법

구분 항목 설명
결측값
종류
완전 무작위 결측 - 다른 값에 영향 받지 않고 완전히 무작위로 발생
- 모든 정보가 데이터 분석에 문제가 되지 않는 경우
무작위 결측 - 결측이 다른 변수에 따라 조건부로 결측이 발생
- 특정 변수 결측 여부가 자료 내 타 변수와 관련 있는 경우
비무작위 결측 - 결측 여부가 해당 변수의 값에 의해 결정되어 발생
- 무작위가 아니라 주도면밀한 추가 조사가 필요
결측값
처리 방법
제거법 - 완전 제거법: 불완전 자료 무시, 완전 관측 자료만 분석
- 한쌍 제거법: 결측치 변수만 해당 분석에서 제외
단순 대치법 - 평균 대체 방법: 관측치의 평균값으로 대체
- 연역적 대체 방법: 논리적으로 유추하여 대체
- 일치 대응 대체 방법: 다른 조사 자료에서 추출하여 대채
다중 대치법 - 단순 대치법의 오차 및 난해성 보안을 위한 방법
- m 번의 대치를 통한 m 개의 가상 완전 자료 만들어 분석
- 대치, 분석, 결합 3단계로 구성

- 결측값 발생시 연구 신뢰도 감소 및 편향 발생으로 적절한 조치 필요

 

2. 정상 범위를 벗어난 데이터, 데이터 이상값

가. 이상값의 정의

- 각 변수의 분포에서 비정상적으로 분포를 벗어나는 극단적인 값

 

나. 이상값의 검출 방법 및 처리 방법

구분 항목 설명
이상값
검출 방법
통계 기법 - Z-Score: 평균에서 3 표준편차(0.15%) 이상 떨어진 값
- 기하평균: 기하평균에서 2.5 표준편차 이상 떨어진 값
- 사분위수 활용: Q1, Q3 기준 사분위범위의 1.5배 이상 떨어진 값
시각화 - 전체 데이터에 대해서 시각화하여 이상값 검출
- 확률 밀도함수, 히스토그램, 시계열차트, 산점도
머신러닝 기법 - 클러스터링 기법, 의사결정 나무 활용하여 이상값 검출
이상값
처리 방법
삭제 - 이상값으로 판단되는 관측값 제외 후 분석
변환 - 자연 로그를 취해 값 차이를 감소시켜 실제값 변형
대체 - 정상 범위에서 하한값보다 작으면 하한값으로, 상한값보다 크면 상한값으로 대체

- 이상값 발생시 편향으로 과대 또는 과소 추정이 발생하므로 적절한 조치 필요

 

반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

시계열 분석  (1) 2024.10.11
RNN과 LSTM  (0) 2024.10.11
CNN  (0) 2024.10.11
의사결정나무 (Decision Tree)  (1) 2024.10.08
이미지 데이터 어노테이션  (1) 2024.10.08