IT 기술/인공지능

멀티모달 AI

gooooooood 2024. 10. 11. 16:04
반응형

Ⅰ. 인간의 인지적 학습법 모방, 멀티모달 AI의 개념

- 이미지, 텍스트, 음성, 비디오 등 다양한 모달리티를 동시에 받아들이고 사고하는 AI 모델

 

Ⅱ. 멀티모달 AI의 개념도 및 종류

가. 멀티모달 AI의 개념도

멀티 모델
- input data의 종류가 1가지이고 여러개의 모델을 거치는 방식
멀티 모달
- input data의 종류가 2가지 이상이며 모델은 1개 또는 2개 이상이 되는 방식

 

나. 멀티모달 AI 종류

종류 개념도 설명
Early Fusion
- 종류가 다른 두 가지 데이터를 하나의 데이터로 먼저 합친 이후 모델 학습
Joint Fusion
- 두 개의 모달리티 데이터를 동시에 학습하지 않고 유연하게 모달리티를 병합

- end-to-end learning
Late Fusion
- 다른 두 가지 데이터를 각각 다른 모델에 학습시킨 이후 나온 결과를 융합해 학습

- 기존의 앙상블모델과 비슷

 

Ⅲ. 멀티 모달의 핵심 기술

처리기술 요소기술 설명
지식/언어지능 - NLP, NLU, NLG
- Word Embedding, Seq2Seq
- 단어 분리, 단어 유형 라벨링, 키워드 검색, 유의어, 반의어, 정보의 분석 및 추출, 관계 추출, 일반 언어 이해
음성/청각 - STT(Speech-To-Text)
- Signal Processing
- 언어 모델, 음성 머신러닝 모델 구축, hot word 자동 인식, 노이즈 필터링
이미지/시각 - Image Processing
- Filtering, Morphology
- 세분화, 이미지 이해, 얼굴 인식, 연령 및 성별 인식, 글자 인식, 이미지 기반 검색, 이미지 기반 예측 분석
추론/기계학습 - 회귀분석, 시계열 분석
- 클러스터링, 연관분석
- 빅데이터 수집 및 처리, KPI 예측, 빅데이터 기반 예측 분석, 머신러닝을 위한 자동 데이터 생성

- 초거대 AI 멀티모달 기술 통해 진화, OpenAI의 DALL-2와 구글의 imagen

 

Ⅳ. 멀티 모달의 핵심 기술

기술 설명 활용 사례
데이터 퓨전 - 다양한 양식의 데이터를 효과적으로 결합 - Early Fusion
- Joint Fusion
- Late Fusion
모달 인코딩 - 다양한 구조의 데이터들을 효과적으로 활용하기 위한 인코딩 기술 필요

- 데이터 특징을 유지하여 정보 손실 최소화
- CNN, NLP, STT
- 음성인식 기술, 영상 처리 기술
크로스-모달 학습 - 이미지, 텍스트, 음성, 영상 등 다른 양식의 데이터 학습

- 다양한 데이터 통합으로 모델 정확도 향상
- 게임, 제품 설계
- 시뮬레이션

 

반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

차원의 저주, 차원 축소 알고리즘  (0) 2024.10.11
머신러닝과 딥러닝 차이  (3) 2024.10.11
강화학습  (0) 2024.10.11
생성형 적대 신경망 GAN  (0) 2024.10.11
시계열 분석  (1) 2024.10.11