반응형
Ⅰ. 데이터 메시의 개요
가. 데이터 메시의 정의 및 필요성
정의: 데이터 파이프라인을 활용하여 여러 도메인의 데이터를 탈중앙화하여 관리하는 데이터 아키텍처
나. 데이터 메시의 4원칙
원칙 | 설명 |
도메인 지향 분산 데이터 소유권 및 아키텍처 (Domain Ownership) |
- 데이터 생성과 확장, 사용자 증가, 데이터 접근 정책의 다양성에 대응 |
제품으로서의 데이터 (Data as a Product) |
- 데이터를 쉽게 검색하고 품질이 보장된 데이터를 사용하여 생산성 향상 |
셀프 서비스 데이터 인프라 플랫폼 (Self-serve data platform) |
- 도메인별 자율적 제품 개발 구축, 실행 및 운영 |
연합 컴퓨팅 거버넌스 (Federated computational governance) |
- 데이터 사용자가 상호 운용을 위한 표준을 따르는 생태계 운영 |
Ⅱ. 데이터 메시 핵심 구성 요소 및 주요 기술
가. 데이터 메시 핵심 구성 요소
구성 요소 | 설명 |
도메인 | - 자체 데이터 소유 관리하는 독립적 비즈니스 단위 |
데이터 제품 | - 도메인에서 생산된 데이터의 최종 결과물 |
데이터 인프라 | - 도메인 내에서 데이터를 관리하는데 필요한 도구와 기술 |
데이터 거버넌스 | - 각 도메인의 데이터 품질, 보안 관리 |
메시 API | - 다른 도메인과 데이터 제품을 사용할 수 있게 정의된 인터페이스 |
나. 데이터 메시 주요 기술
주요 기술 | 설명 | 솔류션 |
데이터 카탈로그 (Data Catalog) |
다양한 유형의 데이터를 목록화해 필요한 정보 빠르게 검색 | - Data Catalog (Azure) - Glue (AWS) - Dataplex (Google) |
쿼리 페더레이션 (Query Federation) |
서로 다른 종류의 데이터들을 하나의 쿼리로 함께 조회 | - BigQuery (Google) - Lakehouse Federation (Databricks) |
데이터 스트리밍 (Data Streaming) |
데이터 구조 및 값 변경 이벤트를 실시간으로 공유 | - Kafka (Apache) - Dataflow (Google) - Kinesis (Amazon) |
IaC (Infrastructure as Code) |
인프라를 코드로 관리, 템플릿화하여 인프라 구성 자동화 | - CloudFormation (Amazon) - Ansible (Red Hat) |
생성형 AI (Generative AI) |
효율적인 메타데이터 관리를 위해 생성형 AI 활용 | - LLM - GAN - VAE |
Ⅲ. 데이터 메시 적용 시 고려사항
- 기술보다는 조직 관점의 접근: 데이터 소유권 가진 도메인에 대한 역할과 책임 명확하게 정의 필요
- 기술 지원 조직 필요: 도메인팀의 부족한 데이터 처리 기술을 지원할 메시 전담 기술지원팀 필요
- 단계적 적용: 작은 도메인부터 단계별로 적용하며 보완 및 확장
반응형
'IT 기술 > DB' 카테고리의 다른 글
ISO 8000 (Data Quality) (0) | 2024.10.03 |
---|---|
데이터 거래소 (2) | 2024.10.03 |
데이터 품질 관리 (2) | 2024.10.02 |
데이터베이스 샤딩 (1) | 2024.10.02 |
데이터 클렌징(Cleansing), 프로파일링(Profiling) (0) | 2024.10.02 |