반응형
Ⅰ. 데이터 클렌징 처리, 결측값과 이상값
구분 | 결측값 | 이상값 |
정의 | - 데이터에서 일부분 또는 전체에 대한 입력이 누락되어 없는 값 | - 데이터에서 일정 범위를 벗어난 값으로 특이하게 작거나 큰 값 |
검출 기법 | - isna() 함수 사용 - isnull() 함수 사용 - sum() 이용 개수 확인 |
- 통계 기법 - IQR 이용 - z-score 방법 |
처리 기법 | - 제거법 - 단일 대체법 - 다중 대체법 |
- 제거 - 변환 - 분리 |
Ⅱ. 결측값과 이상값 처리 기법 상세 설명
가. 결측값 처리 기법
구분 | 특징 | 설명 |
제거법 | - 데이터 제거 | - 하나의 변수라도 결측시 대상에서 제외 |
단일대체법 | - 평균 | - 관측된 자료의 평균값 대체 |
- 연역 | - 유추값, 유사 자료의 패턴 대체 | |
- 회귀 | - 회귀분석 이용하여 대체 | |
- 핫덱 | - 유사한 특성 응답 값 중 랜덤 추출 값 대체 | |
다중대체법 | - 반복 수행 | - 단일 대체 여러번 반복 수행 |
나. 이상값 처리 기법
구분 | 특징 | 설명 |
제거 | - 데이터 제거 | - 이상값 자체를 제거하여 대상에서 제외 |
변환 | - 유사값 변환 | - 로그 변환 적용으로 극단적인 값 완화 |
분리 | - 별도 그룹 분리 | - 별도의 그룹으로 분리하여 분석 |
반응형