Ⅰ. 컴퓨터 비전 분야에 Transformer 적용, ViT의 개념- Transformer 구조를 Vision 분야에 적용해 대량의 이미지 데이터 학습 및 이미지 분류하는 모델 Ⅱ. ViT의 개념도 및 매커니즘가. ViT의 개념도- 이미지를 패치(16*16) 분할하고 각 패치의 선형 임베딩을 Transformer의 입력으로 사용 나. ViT의 매커니즘단계설명이미지 패치분할- 입력 이미지를 고정된 크기의 패치로 분할선형 임베딩- 각 패치는 선형 투영을 통해 벡터 형태로 변환위치 임베딩 추가- 패치의 위치 정보를 유지하기 위해 위치 임베딩 추가- 순서 정보를 알 수 없기 때문에 위치 정보 필요Transformer 인코더- 패치의 선형 임베딩과 위치 임베딩 결합- 결합된 벡터를 Transformer 인코더에 ..