반응형

2024/12/04 12

데이터 전처리 결측값과 이상값

Ⅰ. 데이터 클렌징 처리, 결측값과 이상값구분결측값 이상값정의- 데이터에서 일부분 또는 전체에 대한 입력이 누락되어 없는 값- 데이터에서 일정 범위를 벗어난 값으로 특이하게 작거나 큰 값검출 기법- isna() 함수 사용- isnull() 함수 사용- sum() 이용 개수 확인- 통계 기법- IQR 이용- z-score 방법처리 기법- 제거법- 단일 대체법- 다중 대체법- 제거- 변환- 분리 Ⅱ. 결측값과 이상값 처리 기법 상세 설명가. 결측값 처리 기법구분특징설명제거법- 데이터 제거- 하나의 변수라도 결측시 대상에서 제외단일대체법- 평균- 관측된 자료의 평균값 대체- 연역- 유추값, 유사 자료의 패턴 대체- 회귀- 회귀분석 이용하여 대체- 핫덱- 유사한 특성 응답 값 중 랜덤 추출 값 대체다중대체법- ..

IT 기술/DB 2024.12.04

연결함정

Ⅰ. 정규화 무손실 분해 실패, 연결 함정의 개요가. 연결 함정의 정의- ER모델에서 외혁적으로는 모든 튜플의 관계가 연결된 것 같지만 실제로는 관계성이 모호한 ER모델의 관계성 오류 나. 연결 함정의 종류종류특징설명부채꼴 함정관계성 모호- 개체 집합 사이에 관계성 집합이 정의되어 있지만 모호한 경우균열 함정관계성 미존재- 개체 집합 사이에 관계썽 집합이 정의되어 있지만 일부 집합 사이에 관계성이 존재하지 않는 경우- 연결 함정은 ER 모델 설계 시 발생할 수 있으며 관계성이 모호하거나 존재하지 않는 오류 Ⅱ. 부채꼴 함정의 오류와 해결방안가. 부채꼴 함정 오류문제점설명- 개체 집합 사이에 관계성 집합이 정의되어 있으나, 관계성 예시가 모호한 현상- 교수가 어떤 단과대학에 재직하는지 알 수 있으나, 어떤..

IT 기술/DB 2024.12.04
반응형