반응형

2024/10 42

DB 옵티마이저

Ⅰ. 최적의 SQL 쿼리 수행을 위한, 옵티마이저의 개요가. 옵티마이저의 정의- 사용자가 질의한 SQL문에 대해서 실행 계획과 처리 비용을 추정하여 최적의 실행 계획을 수립하는 DBMS 핵심 엔진 나. 옵티마이저의 핵심 기능- 실행 계획 탐색: 주어진 SQL 질의를 처리할 수 있는 실행 계획 나열- 비용 산정: 각 실행 계획의 예상 비용 계산하고 최소 비용 계획 실행 Ⅱ. 옵티마이저 분류가. 규칙기반 옵티마이저, RBO항목설명개념인덱스 구조, 비교연산자에 따른 순위 부여를 기준으로 최적의 결오를 설정특징- 판단이 규칙적이고 분명하여 사용자가 정확히 예측 가능- 통계 정보라는 현실 요소를 무시하여 판단 오차 클 수 있음우선순위1. ROWID 사용 단일 행2. 클러스터 조인에 의한 단일 행3. UNIQUE ..

카테고리 없음 2024.10.03

ISO 8000 (Data Quality)

Ⅰ. 데이터 품질 국제 표준, ISO 8000가. ISO 8000 정의 및 특징구분설명정의- 기업, 조직에서 생산되는 데이터 라이프 사이클 과정에서 데이터 품질 요구사항을 명세한 국제 표준특징- 마스터 데이터 명세- 데이터 교환, 구문, 의미, 명세 적합성에 대한 상세 정의- 관리 프레임워크 정의- 품질 관리에 대한 9 Box Matrix 모델 기반 활동 제시 나. ISO 8000 구성도 및 구성요소구분상세 설명구성도구성요소ISO 8000 - 1ISO 8000 시리즈에 대한 전반적인 개요ISO 8000 - 2ISO 8000 시리즈에 대한 표준 사용 용어, 원칙 소개ISO 8000 - 8정보 및 데이터 품질 관리 개념 및 측정, 시험 방법ISO 8000 - 51데이터 거버넌스, 데이터 관리 정책ISO 80..

IT 기술/DB 2024.10.03

데이터 거래소

Ⅰ. 가공된 데이터를 거래하는 데이터 거래소의 개요가. 데이터 거래소의 정의- 기업, 공공기관, 정부에서 확보한 데이터를 가공해 부가가치를 높여 필요한 소비자에게 공급하는 플랫폼 나. 데이터 거래소의 제안배경데이터 유출데이터 유출은 데이터 필요 수요가 있다는 반증표준 품질 보증다양한 형태의 데이터에 대해 품질 표준화데이터 통합 분석산재된 데이터를 수집, 저장하여 통합 플랫폼에서 분석, 활용효율적 데이터 유통빅데이터 산업 활성화를 위한 유통 창구 역할 필요새로운 경제 창출신개념 사업 창조로 고용창출 등 촉매제 역할  Ⅱ. 데이터 거래소 개념도 및 구성요소가. 데이터 거래소 개념도 나. 데이터 거래소 구성요소구성요소설명특징빅데이터 플랫폼정형, 비정형 데이터 처리 및 분석 지원표준 플랫폼검색엔진이용자가 필요로..

IT 기술/DB 2024.10.03

데이터 메시

Ⅰ. 데이터 메시의 개요가. 데이터 메시의 정의 및 필요성정의: 데이터 파이프라인을 활용하여 여러 도메인의 데이터를 탈중앙화하여 관리하는 데이터 아키텍처 나. 데이터 메시의 4원칙원칙설명도메인 지향 분산 데이터 소유권 및 아키텍처(Domain Ownership)- 데이터 생성과 확장, 사용자 증가, 데이터 접근 정책의 다양성에 대응제품으로서의 데이터(Data as a Product)- 데이터를 쉽게 검색하고 품질이 보장된 데이터를 사용하여 생산성 향상셀프 서비스 데이터 인프라 플랫폼(Self-serve data platform)- 도메인별 자율적 제품 개발 구축, 실행 및 운영연합 컴퓨팅 거버넌스(Federated computational governance)- 데이터 사용자가 상호 운용을 위한 표준을 ..

IT 기술/DB 2024.10.02

데이터 품질 관리

Ⅰ. 데이터 품질관리 정의 및아키텍처가. 데이터 품질관리 정의- 기관이나 조직 내외부의 정보시스템 및 DB 사용자의 기대 만족을 위해 지속적으로 데이터를 관리하는 활동 나. 데이터 품질관리 아키텍처구성요소특징 및 설명데이터- 기업의 목적 달성을 위해 사용되는 전산화된 데이터데이터 구조- 데이터가 저장되는 틀- 데이터 취급하는 관점에 따라 구조 변경- 사용자 뷰, 모델, 데이터베이스 파일 형태데이터 관리 프로세스- 데이터 및 데이터 구조의 품질을 유지 및 개선하기 위한 활동- 데이터 품질 관리 체계적 접근을 위해 성숙도 모델 활용 Ⅱ. 데이터 품질관리 성숙도 모델가. 데이터 품질관리 성숙도 모델 구성요소구성요소설명데이터 품질 기준- 데이터 품질에 대한 정의품질관리 프로세스- 데이터 품질기준을 향상시키기 위..

IT 기술/DB 2024.10.02

데이터베이스 샤딩

Ⅰ. 대용량 처리를 위한 데이터베이스 파티셔닝, Sharding의 개요정의물리적으로 다른 데이터베이스에 Shard 파티션 생성하여 데이터를 분할하여 저장 관리특징성능 개선큰 데이터를 분산 저장하여 개별 테이블은 각 샤드에서 더 빠른 작업 지원신뢰성 개선한 샤드가 실패하더라도 다른 샤드가 데이터 서비스 제공위치 추상화애플리케이션 서버에서 데이터가 어떤 데이터베이스에 위치한지 알 필요 없음 Ⅱ. 샤딩 데이터베이스 분할 방법 및 가이드라인가. 샤딩 데이터베이스 분할 방법방법설명특징Modular ShardingPK를 모듈러 연산한 결과로 DB를 라우팅하는 방식- 데이터가 균일하게 분산- DB 추가 증설시 기존 데이터 재정렬Range ShardingPK의 범위를 기준으로 DB를 특정하는 방식- 증실시 재정렬 비용..

IT 기술/DB 2024.10.02

데이터 클렌징(Cleansing), 프로파일링(Profiling)

Ⅰ. 데이터 품질 확보, 데이터 클렌징가. 데이터 클렌징의 정의 및 프로세스정의데이터베이스, 테이블, 레코드에서 손상된 정보를 식별하여 교체, 삭제 또는 수정하는 프로세스프로세스1. 데이터베이스 대상 정의클렌징 대상 데이터베이스 범위 정의2. Dirty Data 원인 파악데이터 결측치 및 이상치 식별3. 데이터 품질 문제 우선순위클렌징 우선순위 결정4. Bad Data의 데이터베이스 유입 차단이상 데이터 입력 원인 식별 후 새로운 규칙 생성5. 데이터베이스에서 Bad Data 제거데이터베이스 내부 결측치 및 이상치 제거 나. 데이터 클렌징 기법기법설명데이터변환코드체계 변환다양항 현태의 코드 값을 단일 형태로 변환형식 재구성다양한 형식의 데이터 값을 단일 형식으로 전환수학적 변환다양항 형식의 단위 값을 단..

IT 기술/DB 2024.10.02

분산 데이터베이스 투명성

Ⅰ. 다중 DBMS 통합 관리 시스템, 분산 데이터베이스정의물리적으로 분산된 여러 지역 DBMS를 하나의 논리적인 데이터베이스로 관리하는 데이터베이스 관리 시스템 Ⅱ. 분산 데이터베이스의 투명성(Transparency)특성설명특징분할 투명성하나의 논리적 관계가 분할되어 여러 사이트에 저장- Bottle neck 방지- 시스템 성능 향상- 설계 복잡위치 투명성데이터 저장 위치 명시 불필요, System Catalog에 유지- 어플리케이션 단순화- 이중처리로 속도 저하지역사상 투명성지역  DBMS와 물리적 DB 매핑 보장- 지역 자치성 향상- 점진적 시스템 용량 확장중복 투명성DB 객체가 여러 사이트에 중복 저장에 대해 알 필요 없음- 시스템 구현 복잡장애 투명성장애에 무관한 트랜잭션의 원자성 유지- 장애처..

IT 기술/DB 2024.10.02

DBMS 병행 제어

Ⅰ. 데이터 동시 접근, 병행수행의 개요정의다수의 사용자가 접근하는 DBMS에서 트랜잭션들의 동시 접근시 직렬성을 보장하여 작업 수행하는 기법필요성- 트랜잭션들의 직렬성 보장- 데이터의 일관성과 무결성 보장- 트랜잭션 간섭 제어 (상호 배제) Ⅱ. 병행수행 실패에 따른 문제점문제점사례설명갱신 손실(Lost Update)- 하나의 트랜잭션이 갱신한 내용을 다른 트랜잭션이 덮어씀으로써 갱신이 무효화되는 문제- 두 개의 트랜잭션이 한 개의 데이터를 동시에 갱신할 때 발생현황 파악 오류(Dirty Read)- 트랜잭션이 특정 데이터에 쓰기 작업을 하는 중간에 다른 트랜잭션이 해당 데이터를 읽어와 중간 데이터를 읽어 발생하는 문제모호성(Inconsistency)- 트랜잭션이 특정 데이터를 갱신하는 동안 다른 트랜..

IT 기술/DB 2024.10.01

앙상블 기법

Ⅰ. 복수개의 모델 조합, 앙상블 기법의 개요- 복수의 약한 분류기를 생성하고 그 예측을 결합함으로써 더 정확한 최종 예측을 도출하는 기법 Ⅱ. 랜덤 샘플 데이터 학습, Bagging가. Bagging의 정의정의Bootstrap Aggregating, 여러 개의 동일한 모델을 독립적으로 랜덤 샘플 데이터를 학습시켜 각각의 예측을 결합하여 최종 예측 수행하는 앙상블 기법 나. Bagging의 주요 과정과정설명부트스트랩 샘플링- 전체 데이터셋에서 중복 허용 랜덤 샘플링 수행- 복수의 훈련 데이터셋 생성독립 모델 학습- 생성한 훈련 데이터로 독립 모델 학습- 동일한 알고리즘으로 서로 다른 데이터 학습 예측 결합- 예측 결과 결합하여 최종 예측- 회귀 문제는 평균, 분류 문제는 투표를 통해 결정- 전체 데이터 ..

IT 기술/DB 2024.10.01
반응형