반응형
Ⅰ. 인간처럼 사고하는 인공지능, 멀티모달 AI의 개요
개념 | 이미지, 텍스트, 음성, 영상 등 다양한 모달리티를 동시에 처리하여 사고하는 AI 모델 | |
특징 | 인간 융화 | - 인간과 AI의 자연스러운 의사소통 수행 가능 |
정보 산출 | - 다양한 서비스 분야에서의 상황 인식 모델 구성 | |
상호작용 | - 시각, 청각 등 다양한 상호작용으로 사람처럼 사고 |
Ⅱ. 멀티모달 AI의 종류
종류 | 설명 |
Early Fusion | - 종류가 다른 두 가지 데이터를 하나의 데이터로 먼저 합친 후 모델 학습 - 다양한 데이터 변환 기술 요구, 데이터 전처리 후 융합 |
Late Fusion | - 종류가 데이터를 각각 다른 모델에 학습 후 도출된 결과를 융합 - 기존의 앙상블 모델의 작동 방식과 유사 |
Joint Fusion | - 데이터를 동시에 학습시키지 않고 원하는 모델 깊이에서 병합 - 하나의 모델 학습 진행 중 다른 모달리티와 융합 |
Ⅲ. 멀티모달 AI의 구성요소
처리 기술 | 요소 기술 | 설명 |
언어 | - NLP, NLU, NLG - WE, Seq2Seq |
- 단어 벡터화, 단어 분리, 라벨링, 키워드 검색 - 정보 분석 및 추출, 일반 언어 이해 |
음성 | - STT - Signal Processing |
- 음성 신호 분석 머신러닝, 노이즈 필터링 |
이미지 | - Image Detection - Image Scaling |
- 이미지 탐지, 이미지 분석, 얼굴 인식, 텍스트 인식 - 이미지 기반 검색, 이미지 기반 분석 |
추론 | - 회귀분석, 시계열분석 - 클러스터링, 연관분석 |
- 빅데이터 수집 및 처리, 빅데이터 기반 예측 분석 - 머신러닝 모델 학습 데이터 생성 |
반응형
'IT 기술 > 인공지능' 카테고리의 다른 글
MLOps (0) | 2024.12.10 |
---|---|
K-means Clustering과 DBSCAN (0) | 2024.12.10 |
온디바이스 AI (2) | 2024.12.09 |
인공지능 윤리 기준(과학기술정보통신부 2020.12.23) (1) | 2024.12.09 |
머신러닝 성능지표 (0) | 2024.12.09 |