반응형
Ⅰ. 데이터 품질 확보, 데이터 클렌징
가. 데이터 클렌징의 정의 및 프로세스
정의 | 데이터베이스, 테이블, 레코드에서 손상된 정보를 식별하여 교체, 삭제 또는 수정하는 프로세스 | |
프로세스 | 1. 데이터베이스 대상 정의 | 클렌징 대상 데이터베이스 범위 정의 |
2. Dirty Data 원인 파악 | 데이터 결측치 및 이상치 식별 | |
3. 데이터 품질 문제 우선순위 | 클렌징 우선순위 결정 | |
4. Bad Data의 데이터베이스 유입 차단 | 이상 데이터 입력 원인 식별 후 새로운 규칙 생성 | |
5. 데이터베이스에서 Bad Data 제거 | 데이터베이스 내부 결측치 및 이상치 제거 |
나. 데이터 클렌징 기법
기법 | 설명 | |
데이터변환 | 코드체계 변환 | 다양항 현태의 코드 값을 단일 형태로 변환 |
형식 재구성 | 다양한 형식의 데이터 값을 단일 형식으로 전환 | |
수학적 변환 | 다양항 형식의 단위 값을 단일 단위 값으로 변환 | |
데이터 파싱 | 데이터 정제 규칙 적용위해 유의미한 최소 단위로 분할 | |
데이터 보강 | 변화, 파싱 등을 통해 추가 정보 반영하는 작업 |
Ⅱ. 데이터 관계 발견, 데이터 프로파일링
가. 데이터 프로파일링 정의 및 프로세스
정의 | 데이터 품질 향상을 위해 데이터 현황 분석을 위한 자료 수집과 잠재적 이슈를 찾아내는 방법 | |
프로세스 | 1. 기준 정보 수집 | 테이블 정의서, 컬럼 정의서 등 관련 문서 수집 |
2. 메타정보 추출 | 진단 대상 데이터베이스의 테이블, 컬럼 정보 추출 | |
3. 도메인 정의 | 메타정보를 통한 도메인 정의 및 분류 | |
4. 진단방법 선정 | 도메인 분류 및 기준정보를 통한 프로파일링 대상 선정 | |
5. 프로파일링 실시 | 프로파일링 대상 선정에 따른 진단 실시 |
나. 데이터 프로파일링 기법
기법 | 설명 |
메타데이터 수집 및 분석 | 데이터베이스의 테이블, 컬럼, 제약조건 등 정보 분석 |
컬럼 속성 분석 | 대상 컬럼의 비유효한 값을 확인하는 절차 |
결측치 분석 | 반드시 입력되어야 하는데 누락이 발생한 컬럼 확인 |
값 허용범위 분석 | 컬럼의 속성 값이 가져야 할 범위 내에 해당 값이 속하는지 확인 |
문자열 패턴 분석 | 해당 컬럼의 문자열 유형을 따르지 않는 오류 유형 발견 |
반응형
'IT 기술 > DB' 카테고리의 다른 글
데이터 품질 관리 (2) | 2024.10.02 |
---|---|
데이터베이스 샤딩 (1) | 2024.10.02 |
분산 데이터베이스 투명성 (0) | 2024.10.02 |
DBMS 병행 제어 (0) | 2024.10.01 |
앙상블 기법 (0) | 2024.10.01 |