IT 기술/DB

빅데이터 분석, 처리를 위한 Hadoop, Kappa

gooooooood 2024. 7. 4. 16:55
반응형

빅데이터 분석, 처리 기술 설명

가. 빅데이터 분석도구를 선택하는 원칙

나. 빅데이터 분석, 처리를 위한 Hadoop 3.0, 카파(Kappa) 아키텍처 설명


Ⅰ. 비정형 데이터까지 처리 가능한 빅데이터 분석/처리 개요

개념도
정의 다양한 형태의 대량의 데이터를 효율적으로  저장, 전처리, 분석하여 비즈니스에 필요한 인사이트를 도출하는 과정
구분 설명 세부기술
분석기법 빅데이터를 분석하는 사용할 수 있는 통계 및 컴퓨터 공학의 다양한 기법 - Regression, Classfication, Clustering, Machine Learning, Neural Networks, Visualization
처리기술 분석에 필요한 데이터를 수집, 처리, 관리하기 위해 개발된 기술 - Hadoop, R, SQL, Cloud Computing

 

Ⅱ. 빅데이터 분석도구를 선택하는 원칙

가. 핵심 기능 관점 고려 원칙

구분 원칙 설명
분석 데이터 분석 능력 마이닝, 인공신경망 등 다양한 분석 기능 고려
관리 데이터 통합 관리 능력 다양한 형태의 빅데이터 통합 관리 기능 고려
연계 데이터 연계 다양한 툴 사용, 데이터 저장소와 분석도구 연계 고려

 

나. 조직 관점 고려 원칙

구분 원칙 설명
품질 기능성 - 빅데이터 처리 / 분석 / 시각화 기능
성능 - 다양한 형태, 대량 데이터 처리 속도
보안성 - 데이터 보안 침해, 프라이버시 침해
사용성 학습성 - 러닝 코스트 측정
편의성 - 사용자 인터페이스 및 사용 편의성
목표 달성도 - 다양한 목표의 모델 구축 가능여부
결과물 이해성 - 분석 결과물에 대한 직관적 이해 가능여부
시각화 - 분석 결과물 시각화 표현 지원 여부
리포트 관리 - 분석 결과물 자동 리포팅 생성

- 각 항목에 대한 전문가 평가 후 선택

 

 

Ⅲ. Hadoop 3.0

가. Hadoop 3.0 개요

구성도
정의 - 대용량 데이터 분산처리를 위한 빅데이터 오픈소스 프레임워크
구성요소 HDFS 하둡 네트워크 내 데이터 저장을 위한 분산형 파일 시스템
MapReduce 대용량의 데이터 처리를 위한 분산 프로그래밍 모델, 소프트웨어 프레임워크
Hadoop EcoSystem Zookeeper, YARN, HBase, Kafka, Spark

 

나. Hadoop 3.0의 특징

특징 설명
이레이져 코딩 기존 블록 복제 대체, HDFS 사용량 감소
YARN 타임라인 v2 기존보다 많은 정보 확인 가능
스트립트 재작성 오래된 스크립트 재작성, 버그 수정
네임노드 지원 여러개 스탠바이 노드 지원가능
Ozone 추가 오브젝트 저장소 추가

- JAVA8 지원, 기본 포트 변경, 네이티브 코드 최적화

 

Ⅳ. Kappa 아키택처

가. Kappa 아키텍처 개요

정의 - 데이터 실시간 분석 기능 수행을 위해 스피드 레이어, 서빙 레이어로 구성된 실시간 데이터 분석 아키텍처
특징 - 실시간성, 단순한 구조, 운영 효율적, 데이터 일관성

 

나. Kappa 아키텍처 구성도 및 구성요소

구성도

- 실시간 데이터 처리 위한 스피드 레이어, 쿼리 요청 결과 제공 서빙 레이어
구성요소 스피드 레이어 - 실시간 스트리밍 데이터 분석
서빙 레이어 - 가공 데이터 저장 및 쿼리 응답
구현도구 데이터 수집 카프카
스피드 레이어 스톰, 스파크 스트리밍
서빙 레이어 카산드라, 하이브

 

반응형