반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- progressive learning
- tf.image
- 3D Face
- deep learning
- model
- Reconstruction
- 3D 얼굴
- Machine Learning
- AI
- CNN
- 추천시스템
- EfficientNetV2
- 팰린드롬
- training efficiency
- uncertainty
- ubuntu
- MnasNet
- TensorFlow
- leetcode
- 파이썬
- recommendation
- 슬라이싱
- PYTHON
- neural architecture search
- tf.data
- Adversarial Attack
- image classification
- adaptive regularization
- GAN
Archives
- Today
- Total
굿
빅데이터 분석, 처리를 위한 Hadoop, Kappa 본문
반응형
빅데이터 분석, 처리 기술 설명
가. 빅데이터 분석도구를 선택하는 원칙
나. 빅데이터 분석, 처리를 위한 Hadoop 3.0, 카파(Kappa) 아키텍처 설명
Ⅰ. 비정형 데이터까지 처리 가능한 빅데이터 분석/처리 개요
개념도 | ||
정의 | 다양한 형태의 대량의 데이터를 효율적으로 저장, 전처리, 분석하여 비즈니스에 필요한 인사이트를 도출하는 과정 | |
구분 | 설명 | 세부기술 |
분석기법 | 빅데이터를 분석하는 사용할 수 있는 통계 및 컴퓨터 공학의 다양한 기법 | - Regression, Classfication, Clustering, Machine Learning, Neural Networks, Visualization |
처리기술 | 분석에 필요한 데이터를 수집, 처리, 관리하기 위해 개발된 기술 | - Hadoop, R, SQL, Cloud Computing |
Ⅱ. 빅데이터 분석도구를 선택하는 원칙
가. 핵심 기능 관점 고려 원칙
구분 | 원칙 | 설명 |
분석 | 데이터 분석 능력 | 마이닝, 인공신경망 등 다양한 분석 기능 고려 |
관리 | 데이터 통합 관리 능력 | 다양한 형태의 빅데이터 통합 관리 기능 고려 |
연계 | 데이터 연계 | 다양한 툴 사용, 데이터 저장소와 분석도구 연계 고려 |
나. 조직 관점 고려 원칙
구분 | 원칙 | 설명 |
품질 | 기능성 | - 빅데이터 처리 / 분석 / 시각화 기능 |
성능 | - 다양한 형태, 대량 데이터 처리 속도 | |
보안성 | - 데이터 보안 침해, 프라이버시 침해 | |
사용성 | 학습성 | - 러닝 코스트 측정 |
편의성 | - 사용자 인터페이스 및 사용 편의성 | |
목표 달성도 | - 다양한 목표의 모델 구축 가능여부 | |
결과물 | 이해성 | - 분석 결과물에 대한 직관적 이해 가능여부 |
시각화 | - 분석 결과물 시각화 표현 지원 여부 | |
리포트 관리 | - 분석 결과물 자동 리포팅 생성 |
- 각 항목에 대한 전문가 평가 후 선택
Ⅲ. Hadoop 3.0
가. Hadoop 3.0 개요
구성도 | ||
정의 | - 대용량 데이터 분산처리를 위한 빅데이터 오픈소스 프레임워크 | |
구성요소 | HDFS | 하둡 네트워크 내 데이터 저장을 위한 분산형 파일 시스템 |
MapReduce | 대용량의 데이터 처리를 위한 분산 프로그래밍 모델, 소프트웨어 프레임워크 | |
Hadoop EcoSystem | Zookeeper, YARN, HBase, Kafka, Spark |
나. Hadoop 3.0의 특징
특징 | 설명 |
이레이져 코딩 | 기존 블록 복제 대체, HDFS 사용량 감소 |
YARN 타임라인 v2 | 기존보다 많은 정보 확인 가능 |
스트립트 재작성 | 오래된 스크립트 재작성, 버그 수정 |
네임노드 지원 | 여러개 스탠바이 노드 지원가능 |
Ozone 추가 | 오브젝트 저장소 추가 |
- JAVA8 지원, 기본 포트 변경, 네이티브 코드 최적화
Ⅳ. Kappa 아키택처
가. Kappa 아키텍처 개요
정의 | - 데이터 실시간 분석 기능 수행을 위해 스피드 레이어, 서빙 레이어로 구성된 실시간 데이터 분석 아키텍처 |
특징 | - 실시간성, 단순한 구조, 운영 효율적, 데이터 일관성 |
나. Kappa 아키텍처 구성도 및 구성요소
구성도 |
- 실시간 데이터 처리 위한 스피드 레이어, 쿼리 요청 결과 제공 서빙 레이어 |
|
구성요소 | 스피드 레이어 | - 실시간 스트리밍 데이터 분석 |
서빙 레이어 | - 가공 데이터 저장 및 쿼리 응답 | |
구현도구 | 데이터 수집 | 카프카 |
스피드 레이어 | 스톰, 스파크 스트리밍 | |
서빙 레이어 | 카산드라, 하이브 |
반응형
'IT 기술 > DB' 카테고리의 다른 글
함수적 종속성(FD), 4, 5차 정규화, DB Table Partitioning, 쿼리 오프로딩 (0) | 2024.07.04 |
---|---|
데이터베이스의 동시성 제어/병행제어(Concurrency Control) (0) | 2024.07.04 |