반응형
빅데이터 분석, 처리 기술 설명
가. 빅데이터 분석도구를 선택하는 원칙
나. 빅데이터 분석, 처리를 위한 Hadoop 3.0, 카파(Kappa) 아키텍처 설명
Ⅰ. 비정형 데이터까지 처리 가능한 빅데이터 분석/처리 개요
개념도 | ||
정의 | 다양한 형태의 대량의 데이터를 효율적으로 저장, 전처리, 분석하여 비즈니스에 필요한 인사이트를 도출하는 과정 | |
구분 | 설명 | 세부기술 |
분석기법 | 빅데이터를 분석하는 사용할 수 있는 통계 및 컴퓨터 공학의 다양한 기법 | - Regression, Classfication, Clustering, Machine Learning, Neural Networks, Visualization |
처리기술 | 분석에 필요한 데이터를 수집, 처리, 관리하기 위해 개발된 기술 | - Hadoop, R, SQL, Cloud Computing |
Ⅱ. 빅데이터 분석도구를 선택하는 원칙
가. 핵심 기능 관점 고려 원칙
구분 | 원칙 | 설명 |
분석 | 데이터 분석 능력 | 마이닝, 인공신경망 등 다양한 분석 기능 고려 |
관리 | 데이터 통합 관리 능력 | 다양한 형태의 빅데이터 통합 관리 기능 고려 |
연계 | 데이터 연계 | 다양한 툴 사용, 데이터 저장소와 분석도구 연계 고려 |
나. 조직 관점 고려 원칙
구분 | 원칙 | 설명 |
품질 | 기능성 | - 빅데이터 처리 / 분석 / 시각화 기능 |
성능 | - 다양한 형태, 대량 데이터 처리 속도 | |
보안성 | - 데이터 보안 침해, 프라이버시 침해 | |
사용성 | 학습성 | - 러닝 코스트 측정 |
편의성 | - 사용자 인터페이스 및 사용 편의성 | |
목표 달성도 | - 다양한 목표의 모델 구축 가능여부 | |
결과물 | 이해성 | - 분석 결과물에 대한 직관적 이해 가능여부 |
시각화 | - 분석 결과물 시각화 표현 지원 여부 | |
리포트 관리 | - 분석 결과물 자동 리포팅 생성 |
- 각 항목에 대한 전문가 평가 후 선택
Ⅲ. Hadoop 3.0
가. Hadoop 3.0 개요
구성도 | ||
정의 | - 대용량 데이터 분산처리를 위한 빅데이터 오픈소스 프레임워크 | |
구성요소 | HDFS | 하둡 네트워크 내 데이터 저장을 위한 분산형 파일 시스템 |
MapReduce | 대용량의 데이터 처리를 위한 분산 프로그래밍 모델, 소프트웨어 프레임워크 | |
Hadoop EcoSystem | Zookeeper, YARN, HBase, Kafka, Spark |
나. Hadoop 3.0의 특징
특징 | 설명 |
이레이져 코딩 | 기존 블록 복제 대체, HDFS 사용량 감소 |
YARN 타임라인 v2 | 기존보다 많은 정보 확인 가능 |
스트립트 재작성 | 오래된 스크립트 재작성, 버그 수정 |
네임노드 지원 | 여러개 스탠바이 노드 지원가능 |
Ozone 추가 | 오브젝트 저장소 추가 |
- JAVA8 지원, 기본 포트 변경, 네이티브 코드 최적화
Ⅳ. Kappa 아키택처
가. Kappa 아키텍처 개요
정의 | - 데이터 실시간 분석 기능 수행을 위해 스피드 레이어, 서빙 레이어로 구성된 실시간 데이터 분석 아키텍처 |
특징 | - 실시간성, 단순한 구조, 운영 효율적, 데이터 일관성 |
나. Kappa 아키텍처 구성도 및 구성요소
구성도 |
- 실시간 데이터 처리 위한 스피드 레이어, 쿼리 요청 결과 제공 서빙 레이어 |
|
구성요소 | 스피드 레이어 | - 실시간 스트리밍 데이터 분석 |
서빙 레이어 | - 가공 데이터 저장 및 쿼리 응답 | |
구현도구 | 데이터 수집 | 카프카 |
스피드 레이어 | 스톰, 스파크 스트리밍 | |
서빙 레이어 | 카산드라, 하이브 |
반응형
'IT 기술 > DB' 카테고리의 다른 글
앙상블 기법 (0) | 2024.10.01 |
---|---|
데이터 모델링의 4단계 (0) | 2024.10.01 |
NoSQL CAP 이론 (0) | 2024.10.01 |
함수적 종속성(FD), 4, 5차 정규화, DB Table Partitioning, 쿼리 오프로딩 (0) | 2024.07.04 |
데이터베이스의 동시성 제어/병행제어(Concurrency Control) (0) | 2024.07.04 |