반응형
Ⅰ. 기계의 자연어 처리를 위한 워드 임베딩의 개요
가. 워드 임베딩의 개념
개념도 | |
개념 | 단어 간 유사도 및 중요도 파악을 위해 단어를 벡터값으로 맵핑하여 처리하는 자연어 모델링 기술 |
나. 워드 임베딩의 필요성
- 유사한 의미 단어 군집화, 단어 간 관계를 파악하여 추론 연산 가능
Ⅱ. 워드 임베딩의 유형
구분 | 유형 | 설명 |
횟수 기반 임베딩 | BoW(Bag of Words) | - 단어의 출현 빈도만으로 단어 사전 생성 - 각 단어 인덱싱 기반 사전으로 만들어 분류 |
Count Vector | - 모든 문서의 단어 학습 후 단어 횟수 파악 - 문서별 고유 토큰 수 기반 행렬로 표현 |
|
TF-IDF | - 핵심어 추출 위해 단어의 특정 문서 내 중요도 산출 - TF: 단어의 문서내 빈도, IDF: 문서 빈도 수의 역수 |
|
추론 기반 임베딩 | CBOW | - 주변 단어 기반 해당 위치에 나타날 수 있는 단어 추론 - 컨텍스트에서 단어의 평균을 적용하여 softmax 계산 |
Skip-gram | - 입력 단어를 통해 주변에 나타날 수 있는 단어 추론 - 컨텍스트에서 단어를 1:1로 대응 softmax 계산 |
|
Word2Vec | - 단어를 벡터 평면에 배치하여 문맥적 의미 보존 - 신경망 연산 수행하여 CBOW와 Skip-gram 모델 적용 |
- 횟수 기반은 TF-IDF를, 추론 기반은 Word2Vec을 대표적으로 사용
Ⅲ. TF-IDF와 Word2Vec 기법 비교
항목 | TF-IDF | Word2Vec |
원리 | 횟수 기반 | 추론 기반 |
방식 | 단어-문서 내 중요도 산출 | 단어를 벡터 매핑 후 추론 |
연산 대상 | 문서 내 단어 등장 횟수 연산 | 단어 벡터 간 관계 연산 |
적용 모델 | TF, DF, IDF, TF-IDF | CBOW, Skip-gram |
활용 방법 | 검색 순위, 문서내 핵심 단어 | 자연어 문장 생성 |
활용 서비스 | 검색 트랜드 분석, 유사도 비교 | 챗봇, 가상 비서 |
[참고] https://blog.skby.net/%EC%9B%8C%EB%93%9C-%EC%9E%84%EB%B2%A0%EB%94%A9word-embedding/
반응형
'IT 기술 > 인공지능' 카테고리의 다른 글
데이터 마이닝 (2) | 2024.12.11 |
---|---|
파운데이션 모델 (1) | 2024.12.11 |
Vision Transformer (0) | 2024.12.11 |
파인 튜닝과 프롬프트 엔지니어링 (1) | 2024.12.11 |
적응형 AI(Adaptive AI) (3) | 2024.12.11 |