반응형
1. 누락된 데이터 값, 데이터 결측값
가. 결측값의 정의
- 데이터 수집 및 처리 과정에서 정보 손실, 연구 대상 무응답 등 여러 원인으로 발생한 데이터 누락 값
나. 결측값의 종류 및 처리 방법
구분 | 항목 | 설명 |
결측값 종류 |
완전 무작위 결측 | - 다른 값에 영향 받지 않고 완전히 무작위로 발생 - 모든 정보가 데이터 분석에 문제가 되지 않는 경우 |
무작위 결측 | - 결측이 다른 변수에 따라 조건부로 결측이 발생 - 특정 변수 결측 여부가 자료 내 타 변수와 관련 있는 경우 |
|
비무작위 결측 | - 결측 여부가 해당 변수의 값에 의해 결정되어 발생 - 무작위가 아니라 주도면밀한 추가 조사가 필요 |
|
결측값 처리 방법 |
제거법 | - 완전 제거법: 불완전 자료 무시, 완전 관측 자료만 분석 - 한쌍 제거법: 결측치 변수만 해당 분석에서 제외 |
단순 대치법 | - 평균 대체 방법: 관측치의 평균값으로 대체 - 연역적 대체 방법: 논리적으로 유추하여 대체 - 일치 대응 대체 방법: 다른 조사 자료에서 추출하여 대채 |
|
다중 대치법 | - 단순 대치법의 오차 및 난해성 보안을 위한 방법 - m 번의 대치를 통한 m 개의 가상 완전 자료 만들어 분석 - 대치, 분석, 결합 3단계로 구성 |
- 결측값 발생시 연구 신뢰도 감소 및 편향 발생으로 적절한 조치 필요
2. 정상 범위를 벗어난 데이터, 데이터 이상값
가. 이상값의 정의
- 각 변수의 분포에서 비정상적으로 분포를 벗어나는 극단적인 값
나. 이상값의 검출 방법 및 처리 방법
구분 | 항목 | 설명 |
이상값 검출 방법 |
통계 기법 | - Z-Score: 평균에서 3 표준편차(0.15%) 이상 떨어진 값 - 기하평균: 기하평균에서 2.5 표준편차 이상 떨어진 값 - 사분위수 활용: Q1, Q3 기준 사분위범위의 1.5배 이상 떨어진 값 |
시각화 | - 전체 데이터에 대해서 시각화하여 이상값 검출 - 확률 밀도함수, 히스토그램, 시계열차트, 산점도 |
|
머신러닝 기법 | - 클러스터링 기법, 의사결정 나무 활용하여 이상값 검출 | |
이상값 처리 방법 |
삭제 | - 이상값으로 판단되는 관측값 제외 후 분석 |
변환 | - 자연 로그를 취해 값 차이를 감소시켜 실제값 변형 | |
대체 | - 정상 범위에서 하한값보다 작으면 하한값으로, 상한값보다 크면 상한값으로 대체 |
- 이상값 발생시 편향으로 과대 또는 과소 추정이 발생하므로 적절한 조치 필요
반응형
'IT 기술 > 인공지능' 카테고리의 다른 글
시계열 분석 (1) | 2024.10.11 |
---|---|
RNN과 LSTM (0) | 2024.10.11 |
CNN (0) | 2024.10.11 |
의사결정나무 (Decision Tree) (1) | 2024.10.08 |
이미지 데이터 어노테이션 (1) | 2024.10.08 |