IT 기술/인공지능

워드 임베딩과 기법

gooooooood 2024. 12. 11. 14:43
반응형

Ⅰ. 기계의 자연어 처리를 위한 워드 임베딩의 개요

가. 워드 임베딩의 개념

개념도
개념 단어 간 유사도 및 중요도 파악을 위해 단어를 벡터값으로 맵핑하여 처리하는 자연어 모델링 기술

 

나. 워드 임베딩의 필요성

- 유사한 의미 단어 군집화, 단어 간 관계를 파악하여 추론 연산 가능

 

Ⅱ. 워드 임베딩의 유형

구분 유형 설명
횟수 기반 임베딩 BoW(Bag of Words) - 단어의 출현 빈도만으로 단어 사전 생성
- 각 단어 인덱싱 기반 사전으로 만들어 분류
Count Vector - 모든 문서의 단어 학습 후 단어 횟수 파악
- 문서별 고유 토큰 수 기반 행렬로 표현
TF-IDF - 핵심어 추출 위해 단어의 특정 문서 내 중요도 산출
- TF: 단어의 문서내 빈도, IDF: 문서 빈도 수의 역수
추론 기반 임베딩 CBOW - 주변 단어 기반 해당 위치에 나타날 수 있는 단어 추론
- 컨텍스트에서 단어의 평균을 적용하여 softmax 계산
Skip-gram - 입력 단어를 통해 주변에 나타날 수 있는 단어 추론
- 컨텍스트에서 단어를 1:1로 대응 softmax 계산
Word2Vec - 단어를 벡터 평면에 배치하여 문맥적 의미 보존
- 신경망 연산 수행하여 CBOW와 Skip-gram 모델 적용

- 횟수 기반은 TF-IDF를, 추론 기반은 Word2Vec을 대표적으로 사용

 

Ⅲ. TF-IDF와 Word2Vec 기법 비교

항목 TF-IDF Word2Vec
원리 횟수 기반 추론 기반
방식 단어-문서 내 중요도 산출 단어를 벡터 매핑 후 추론
연산 대상 문서 내 단어 등장 횟수 연산 단어 벡터 간 관계 연산
적용 모델 TF, DF, IDF, TF-IDF CBOW, Skip-gram
활용 방법 검색 순위, 문서내 핵심 단어 자연어 문장 생성
활용 서비스 검색 트랜드 분석, 유사도 비교 챗봇, 가상 비서

 

 

[참고] https://blog.skby.net/%EC%9B%8C%EB%93%9C-%EC%9E%84%EB%B2%A0%EB%94%A9word-embedding/

반응형

'IT 기술 > 인공지능' 카테고리의 다른 글

데이터 마이닝  (2) 2024.12.11
파운데이션 모델  (1) 2024.12.11
Vision Transformer  (0) 2024.12.11
파인 튜닝과 프롬프트 엔지니어링  (1) 2024.12.11
적응형 AI(Adaptive AI)  (3) 2024.12.11