IT 기술/DB

데이터 클렌징(Cleansing), 프로파일링(Profiling)

gooooooood 2024. 10. 2. 08:50
반응형

Ⅰ. 데이터 품질 확보, 데이터 클렌징

가. 데이터 클렌징의 정의 및 프로세스

정의 데이터베이스, 테이블, 레코드에서 손상된 정보를 식별하여 교체, 삭제 또는 수정하는 프로세스
프로세스 1. 데이터베이스 대상 정의 클렌징 대상 데이터베이스 범위 정의
2. Dirty Data 원인 파악 데이터 결측치 및 이상치 식별
3. 데이터 품질 문제 우선순위 클렌징 우선순위 결정
4. Bad Data의 데이터베이스 유입 차단 이상 데이터 입력 원인 식별 후 새로운 규칙 생성
5. 데이터베이스에서 Bad Data 제거 데이터베이스 내부 결측치 및 이상치 제거

 

나. 데이터 클렌징 기법

기법 설명
데이터변환 코드체계 변환 다양항 현태의 코드 값을 단일 형태로 변환
형식 재구성 다양한 형식의 데이터 값을 단일 형식으로 전환
수학적 변환 다양항 형식의 단위 값을 단일 단위 값으로 변환
데이터 파싱 데이터 정제 규칙 적용위해 유의미한 최소 단위로 분할
데이터 보강 변화, 파싱 등을 통해 추가 정보 반영하는 작업

 

Ⅱ. 데이터 관계 발견, 데이터 프로파일링

가. 데이터 프로파일링 정의 및 프로세스

 
정의 데이터 품질 향상을 위해 데이터 현황 분석을 위한 자료 수집과 잠재적 이슈를 찾아내는 방법
프로세스 1. 기준 정보 수집 테이블 정의서, 컬럼 정의서 등 관련 문서 수집
2. 메타정보 추출 진단 대상 데이터베이스의 테이블, 컬럼 정보 추출
3. 도메인 정의 메타정보를 통한 도메인 정의 및 분류
4. 진단방법 선정 도메인 분류 및 기준정보를 통한 프로파일링 대상 선정
5. 프로파일링 실시 프로파일링 대상 선정에 따른 진단 실시

 

나. 데이터 프로파일링 기법

기법 설명
메타데이터 수집 및 분석 데이터베이스의 테이블, 컬럼, 제약조건 등 정보 분석
컬럼 속성 분석 대상 컬럼의 비유효한 값을 확인하는 절차
결측치 분석 반드시 입력되어야 하는데 누락이 발생한 컬럼 확인
값 허용범위 분석 컬럼의 속성 값이 가져야 할 범위 내에 해당 값이 속하는지 확인
문자열 패턴 분석 해당 컬럼의 문자열 유형을 따르지 않는 오류 유형 발견
반응형

'IT 기술 > DB' 카테고리의 다른 글

데이터 품질 관리  (2) 2024.10.02
데이터베이스 샤딩  (1) 2024.10.02
분산 데이터베이스 투명성  (0) 2024.10.02
DBMS 병행 제어  (0) 2024.10.01
앙상블 기법  (0) 2024.10.01