반응형
Ⅰ. 인간의 인지적 학습법 모방, 멀티모달 AI의 개념
- 이미지, 텍스트, 음성, 비디오 등 다양한 모달리티를 동시에 받아들이고 사고하는 AI 모델
Ⅱ. 멀티모달 AI의 개념도 및 종류
가. 멀티모달 AI의 개념도
멀티 모델 | - input data의 종류가 1가지이고 여러개의 모델을 거치는 방식 | |
멀티 모달 | - input data의 종류가 2가지 이상이며 모델은 1개 또는 2개 이상이 되는 방식 |
나. 멀티모달 AI 종류
종류 | 개념도 | 설명 |
Early Fusion | - 종류가 다른 두 가지 데이터를 하나의 데이터로 먼저 합친 이후 모델 학습 | |
Joint Fusion | - 두 개의 모달리티 데이터를 동시에 학습하지 않고 유연하게 모달리티를 병합 - end-to-end learning |
|
Late Fusion | - 다른 두 가지 데이터를 각각 다른 모델에 학습시킨 이후 나온 결과를 융합해 학습 - 기존의 앙상블모델과 비슷 |
Ⅲ. 멀티 모달의 핵심 기술
처리기술 | 요소기술 | 설명 |
지식/언어지능 | - NLP, NLU, NLG - Word Embedding, Seq2Seq |
- 단어 분리, 단어 유형 라벨링, 키워드 검색, 유의어, 반의어, 정보의 분석 및 추출, 관계 추출, 일반 언어 이해 |
음성/청각 | - STT(Speech-To-Text) - Signal Processing |
- 언어 모델, 음성 머신러닝 모델 구축, hot word 자동 인식, 노이즈 필터링 |
이미지/시각 | - Image Processing - Filtering, Morphology |
- 세분화, 이미지 이해, 얼굴 인식, 연령 및 성별 인식, 글자 인식, 이미지 기반 검색, 이미지 기반 예측 분석 |
추론/기계학습 | - 회귀분석, 시계열 분석 - 클러스터링, 연관분석 |
- 빅데이터 수집 및 처리, KPI 예측, 빅데이터 기반 예측 분석, 머신러닝을 위한 자동 데이터 생성 |
- 초거대 AI 멀티모달 기술 통해 진화, OpenAI의 DALL-2와 구글의 imagen
Ⅳ. 멀티 모달의 핵심 기술
기술 | 설명 | 활용 사례 |
데이터 퓨전 | - 다양한 양식의 데이터를 효과적으로 결합 | - Early Fusion - Joint Fusion - Late Fusion |
모달 인코딩 | - 다양한 구조의 데이터들을 효과적으로 활용하기 위한 인코딩 기술 필요 - 데이터 특징을 유지하여 정보 손실 최소화 |
- CNN, NLP, STT - 음성인식 기술, 영상 처리 기술 |
크로스-모달 학습 | - 이미지, 텍스트, 음성, 영상 등 다른 양식의 데이터 학습 - 다양한 데이터 통합으로 모델 정확도 향상 |
- 게임, 제품 설계 - 시뮬레이션 |
반응형
'IT 기술 > 인공지능' 카테고리의 다른 글
차원의 저주, 차원 축소 알고리즘 (0) | 2024.10.11 |
---|---|
머신러닝과 딥러닝 차이 (3) | 2024.10.11 |
강화학습 (0) | 2024.10.11 |
생성형 적대 신경망 GAN (0) | 2024.10.11 |
시계열 분석 (1) | 2024.10.11 |