IT 기술/인공지능

머신러닝 파이프라인

gooooooood 2024. 10. 11. 17:08
반응형

Ⅰ. 머신러닝 파이프라인의 개요

가. 머신러닝 파이프라인의 개념

- 데이터 수집부터 전처리, 학습 모델 배포, 예측까지 전 과정을 순차적으로 처리하도록설계된 머신러닝 아키텍처

 

나. 머신러닝 파이프라인의 필요성

머신러닝 자동화: 머신러닝 모델 전 과정 지속 수행 위한 파이프라인 기반 자동화

예측 정확성 향상: 내부 구조 이해를 통한 머신러닝 성능 향상

지속적인 개선: 파이프라인을 통한 신규 데이터 재학습 및 모델 개선

 

Ⅱ. 머신러닝 파이프라인 데이터 처리 흐름 및 주요 활동

가. 머신러닝 파이프라인 데이터 처리 흐름

 

나. 머신러닝 파이프라인 주요활동

단계 활동 세부 설명
데이터 수집 ETL 적용 - 기존 데이터 소스에서 데이터 수집
- 다운로드 데이터, 데이터 소스 추출
데이터 레이크 - 다양한 Raw 데이터 실시간 수집, 전처리, 저장
- 실시간, 배치 데이터, SQL, NoSQL, HDFS
데이터 준비 데이터 정규화 - 사용할 데이터 일관성 확보
편향 분석 - 모델에 포함된 편향성 제거
모델 학습 하이퍼파라미터 적용 - 최적 딥러닝 모델 구현 위해 학습률 등 변수 설정
- 학습률, 손실함수, 정규화, 미니배치, 훈련횟수 등
병렬 처리 - 처리 성능 향상 위해 모델 분산 컴퓨팅 처리
- GPGPU, MXNet, TensorFlow, Torch 프레임워크
모델 배치 클라우드 호스팅 모델 배치 - 데이터센터에 수신되는 데이터대상 예측 생성
- RESTful API 기반 클라우드 인스턴스에서 예측 제공
클라이언트 기반 모델 배치 - 클라이언트에 학습 완료 모델 배치 후 주기적 갱신
- 낮은 대역폭, 네트워크 연결 불가 클라이언트 대상

 

반응형