반응형

Ⅰ. 단어간 상관관계 집중, 어텐션 매커니즘의 개요

가. 어텐션 매커니즘의 정의

- 언어모델에서 디코더의 출력 단어를 예측하는 매시점에 예측해야 할 단어와 연관이 있는 입력 단어에 좀 더 집중하도록 구조화하는 방법

 

나 .어텐션 매커니즘 등장 배경

RNN 기반 Seq2seq 모델 문제점

- 하나의 고정된 크기의 벡터에 모든 정보를 압축하여 정보손실 발생

- RNN의 고질적인 문제인 Vanishing Gradient Problem 존재

- 입력 데이터가 길어질때 성능 저하를 보정하기 위한 방법이 어텐션 기법

 

Ⅱ. 어텐션 매커니즘의 원리와 계산 과정

가. 어텐션 매커니즘의 원리

- Attention Value는 쿼리와 키의 유사도를 구하고 이 유사도를 반영하여 Value(값)에 적용한 값

- Attention Function은 주로 Dot-Product Attention, 즉 내적 연산 주로 사용

 

나. 어턴션 계산 과정

단계 과정 상세 설명
1 Attention Score 계산 - 쿼리와 키 사이의 유사도 계산
- 쿼리는 디코더의 t시점의 은닉 상태
- 키는 인코더의 모든 시점의 은닉 상태
2 Attention Distribution 계산 - 디코더의 t시점에 인코더의 각 시점의 정보가 얼마나 중요한지 계산
- 소프트맥스 함수 활용 합이 1이되는 확률 분포 계산
3 Attention Value 계산 - 어텐션 가중치와 인코더 값 곱한 후, 모든 인코더 시점에 대해 합산하여 어텐션 값 계산
4 Attention Value와 디코더의 은닉상태 연결 - 어텐션 값과 디코더의 t시점의 은닉상태 연결하여 새로운 입력으로 사용
반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

sLLM  (1) 2024.10.24
딥페이크  (0) 2024.10.24
인공신경망  (2) 2024.10.11
생성형 인공지능 위험성, 할루시네이션  (1) 2024.10.11
하이퍼파라미터  (0) 2024.10.11

+ Recent posts