IT 기술/DB

데이터 전처리 결측값과 이상값

gooooooood 2024. 12. 4. 22:01
반응형

Ⅰ. 데이터 클렌징 처리, 결측값과 이상값

구분 결측값  이상값
정의 - 데이터에서 일부분 또는 전체에 대한 입력이 누락되어 없는 값 - 데이터에서 일정 범위를 벗어난 값으로 특이하게 작거나 큰 값
검출 기법 - isna() 함수 사용
- isnull() 함수 사용
- sum() 이용 개수 확인
- 통계 기법
- IQR 이용
- z-score 방법
처리 기법 - 제거법
- 단일 대체법
- 다중 대체법
- 제거
- 변환
- 분리

 

Ⅱ. 결측값과 이상값 처리 기법 상세 설명

가. 결측값 처리 기법

구분 특징 설명
제거법 - 데이터 제거 - 하나의 변수라도 결측시 대상에서 제외
단일대체법 - 평균 - 관측된 자료의 평균값 대체
- 연역 - 유추값, 유사 자료의 패턴 대체
- 회귀 - 회귀분석 이용하여 대체
- 핫덱 - 유사한 특성 응답 값 중 랜덤 추출 값 대체
다중대체법 - 반복 수행 - 단일 대체 여러번 반복 수행

 

나. 이상값 처리 기법

구분 특징 설명
제거 - 데이터 제거 - 이상값 자체를 제거하여 대상에서 제외
변환 - 유사값 변환  - 로그 변환 적용으로 극단적인 값 완화
분리 - 별도 그룹 분리 - 별도의 그룹으로 분리하여 분석

 

반응형

'IT 기술 > DB' 카테고리의 다른 글

NoSQL  (0) 2024.12.04
스타 스키마  (0) 2024.12.04
연결함정  (0) 2024.12.04
데이터 표준화  (1) 2024.12.03
데이터베이스 튜닝 (Tuning)  (2) 2024.10.03