반응형

2025/04/09 12

CDC (Change Data Capture)

1. 실시간 변경 추적, CDC의 정의- 데이터베이스에서 발생하는 변경 사항을 실시간 감지하고 이를 데이터 웨어하우스, 로그 분석 플랫폼에 전송하는 기술필요성) 실시간 데이터 처리, ETL 효율 향상, 이벤트 기반 처리. 실시간 변경 추적, CDC의 정의 2. CDC 구성도 및 방식가. CDC 구성도구성 요소설명활용변경 감지기데이터베이스 변경 감지트리거, 로그, 타임스탬프 기반데이터 파이프라인CDC 데이터를 스트리밍 처리Kafka, Flink, Debezium타겟 시스템데이터 웨어하우스실시간 분석, NoSQL 나. CDC 방식방식설명특징쿼리 기반변경 전/후 비교구현 쉽고 부하 높음트리거 기반트랜잭션 트리거 설정정밀하지만 성능 저하로그 기반트랜잭션 로그 분석복잡하지만 고성능타임스탬프 기반시간 기준 변경 추..

IT 기술/DB 2025.04.09

DB 백업의 필요성과 유형

1. 데이터 손실 방지, 데이터베이스 백업의 개요정의- 데이터베이스의 데이터를 안전한 저장소에 복사하여 시스템 장애나 오류 발생 시 원래 상태로 복구할 수 있도록 하는 기술필요성- 데이터 손실 방지HW/SW의 고장 또는 사람의 실수로 손실되는 데이터 복구- 보안 사고 대응악성코드나 해킹으로 데이터 삭제 시 이전 상태로 복구- 서비스 연속성 확보SLA 준수와 고객 신뢰 유지에 핵심 역할- 전체 백업, 차등 백업, 증분 백업 등 다양한 백업 유형 존재 2. 데이터베이스 백업의 유형구분유형설명백업 범위전체 백업 (Full)가장 기본, 데이터베이스 전체 백업차등 백업 (Differential)마지막 전체 백업 이후 변경 데이터만 백업증분 백업 (Incremental)마지막 백업 이후 변경된 데이터만 백업백업 방..

IT 기술/DB 2025.04.09

4차 정규화

1. 다치종속 제거, 4차 정규화 정의- 3차 정규형을 만족하면서, 하나의 기본키에 대해 두 개 이상의 독립적인 다치 종속이 존재하지 않도록 테이블 분해하는 정규화다치 종속) 하나의 속성이 기본키에 대해 다수의 독립적인 값 가질 때  2. 4차 정규화 과정정규화 이전문제점- 학생 ID에 대해 전화번호와 이메일이 각각 독립적 다치 종속 -> 중복 발생정규화 이후수행 효과- 다치 종속을 제거함으로써 데이터 중복이 줄고 데이터 이상 방지- 데이터 중복 제거로 성능 향상과 이상현상 제거로 데이터 무결성 확보

IT 기술/DB 2025.04.09

데이터 옵스(DataOps)

1. 데이터 관리 최적화, 데이터 옵스 정의- 데이터 파이프라인의 개발, 배포, 운영을 자동화하고 최적화하여 데이터 분석 신뢰성 향상시키는 운영 프레임워크필요성) 데이터 분석 품질 향상, 비즈니스 민첩성, 부서간 협업 2. 데이터 옵스 아키텍처와 구성요소가. 데이터 옵스 아키텍처 나. 데이터 옵스 주요 구성요소구분설명툴메타데이터시스템 및 활동 로그 관리MongoDB, Hadoop, Spark인증 및 권한환경 엑세스 제어IAM, OAuth 2.0, SSO보고서내부 분석 및 대시보드Tableau, Power BI자동 배포CI/CD 자동화Jenkins, CircleCI, GitLab오케스트레이션테스트 및 모니터링Grafana, Airflow, KubeFlow  3. 데이터 옵스 프레임워크

IT 기술/DB 2025.04.09

정규화와 역정규화

1. 데이터 무결성과 일관성 확보, 정규화정의데이터 중복 제거하고 이상현상 방지하여 데이터 무결성과 일관성을 확보하기 위한 설계 기법개념도정규화 단계1NF- 도메인 원자값2NF- 부분적 함수 종속 제거3NF- 이행적 함수 종속 제거BCNF- 결정자 중 후보키 아닌 것 제거4NF- 다치 종속 제거5NF- 조인 종속성 제거장단점장점- 데이터 무결성 및 정합성 확보단점- 테이블 수 증가로 조회 성능 저하적용 대상OLTP 시스템, 금융, ERP  2. 데이터 조회 성능 향상, 역정규화정의성능 향상 또는 조회 최적화를 위해 정규화된 테이블을 통합하거나 중복을 허용하여 재구성하는 설계 기법개념도역정규화 기법테이블 병합- 자주 조인되는 테이블 하나로 통합중복 컬럼 추가- 조회 성능 개선 위해 특정 컬럼 중복 저장요약..

IT 기술/DB 2025.04.09

데이터 카탈로그

1. 데이터 자산의 설명서 제공, 데이터 카탈로그의 정의- 조직 내 다양한 데이터를 이해하고 탐색할 수 있도록 메타데이터를 중앙에서 수집, 정리, 관리, 검색 가능하게 만든 정보 저장소필요성) 데이터 활용 증가, 거버넌스, 분석 생산성 향상  2. 데이터 카탈로그 구성도 및 주요 기능가. 데이터 카탈로그 구성도 나. 데이터 카탈로그 주요 기능구성 요소주요 기능설명메타데이터 저장소- 메타 크롤러- 리니지 크롤러- 샘플 크롤러데이터 메타 정보, 히스토리 정보, 샘플 데이터 수집데이터 계보- 데이터 흐름 시각화테이블 및 스키마 변경 이력 관리데이터 분류 및 태깅- 자동 분류 및 사용자 태그데이터 특성 식별, 접근 제어 제공API 및 연동- 외부 시스템과 통합외부 BI/ETL(extract, transform,..

IT 기술/DB 2025.04.09

RBO(Rule Based Optimizer)와 CBO(Cost Based Optimizer) 비교

1. RBO와 CBO 개념 비교RBOCBO- 정해진 규칙에 따라 실행 계획을 선택하는 우선순위가 정의된 고정 규칙 기반의 옵티마이저- 통계 기반 비용 계산으로 최적 실행 계획을 선택하는 테이블/인덱스 등의 통계 정보 기반의 옵티마이저  2. RBO와 CBO 상세 비교항목RBOCBO개념도기준고정 규칙통계 기반 비용우선 순위인덱스 -> 소규모 테이블 -> 조인실행 비용 적은 경로통계 정보불필요필수(DBMS_STATS)유연성낮음(고정 전략)높음(데이터 따라)정확도단순 질의에 적합복잡 질의에 효율적용 환경과거 Oracle 7이하최신 Oracle 10 이상조인 순서규칙에 따라 고정비용 적은 조인 순서인덱스 활용강제 활용비용 기반 필요시장점예측 가능, 단순 구조최적 실행, 유연성단점비효율 발생 가능분석 비용 발- ..

IT 기술/DB 2025.04.09

NoSQL 유형과 모델링 절차

1. 빅데이터 처리를 위한, NoSQL의 정의- RDBMS의 한계를 극복하기 위한 대용량 비정형 데이터 분산저장 데이터베이스특징) BASE, CAP, PACELC 이론 기반 2. NoSQL 유형과 모델링 절차가. NoSQL 유형유형개념도설명Key-Value- key(식별자) -> value(데이터 객체) 구조- 빠른 읽기/쓰기, 분산 처리- Redis, DynamoDB, Riak- 세션 캐시, 사용자 프로필Column - 열 중심의 데이터 저장 구조- 대규모 로그/이벤트 처리 유리- Cassandra, HBase, ScyllaDB- 로그 수집, IoT 데이터 처리Document- JSON, BSON, XML 문서 구조- 복잡한 데이터 직관적 표현- MongoDB, CouchDB, DocumentDB- 콘..

IT 기술/DB 2025.04.09

DQ 인증(데이터 품질 인증)

1. 데이터 품질 제고 및 고도화, 데이터 품질 인증 정의- 과학기술정보통신부가 지정한 데이터 품질인증기관이 데이터 내용, 관리체계를 진단하고 수준을 평가하여 품질 인증하는 제도관련 법령)데이터 산업진흥 및 이용촉진에 관한 기본법 제20조 2. DQ인증 유형 및 등급과 심사 지표가. DQ 인증 유형 및 등급항목구분기준인증 유형Complex-Type필수 심사 항목 전체, 선택 심사 항목 3개 이상Normal-Type필수 심사 항목 전체, 선택 심사 항목 3개 미만Simple-Type필수 심사 항목 일부인증 등급Class A데이터 품질 점수 0.99 이상Class B데이터 품질 점수 0.97 이상Class C데이터 품질 점수 0.95 이상- 데이터 구조, 관리 특성에 따라 적용 필수 지표와 선택 지표로 구분..

IT 기술/DB 2025.04.09

그래프 데이터베이스와 벡터 데이터베이스

1. 그래프 데이터베이스정의관계형 데이터베이스 보안 위한 NoSQL 계열로 데이터 사이 관계를 그래프로 연결하는 데이터베이스개념도구성 기술구성 요소노드, 엣지, 속성, 레이블저장 기술Native Graph Storage, Non-Native(NoSQL)질의 언어Cypher, Gremlin, SPARQL탐색 기술DFS, BFS, Dijkstra분산 처리분산 저장, 병렬 처리, 동시성 제어활용 사례SNS 분석- key/value 통해 관계 설정ERP, IAM- 계층 관계를 그래프로 모델링- 스키마가 필요없고 데이터 간의 관계에 따라 조회하여 질의 처리 속도 향상 2. 벡터 데이터베이스정의방대한 양의 고차원 데이터를 벡터 형태로 최적화하여 저장하고 검색하기 위한 데이터베이개념도구성요소임베딩 벡터- 비정형 데이..

IT 기술/DB 2025.04.09
반응형