반응형
https://arxiv.org/abs/2305.16999
1. 본 논문에서는 사전에 학습된 이미지 분류기를 활용하여 시각-언어 모델의 대조 학습을 개선하는 유연한 방법인 Three Towers (3T)를 소개합니다.
2. 대조적인 모델은 보통 처음부터 학습되지만, 최근에는 사전에 학습된 분류기 임베딩을 활용하여 성능 향상을 보인 LiT (Zhai 등, 2022)가 있습니다. 그러나 LiT는 이미지 타워를 고정된 임베딩으로 직접 대체하여, 이미지 타워를 대조적으로 학습하는 잠재적 이점을 배제하고 있습니다.
3. 3T는 이미지 타워가 사전 학습된 임베딩과 대조적인 학습 둘 다의 이점을 누릴 수 있도록 더 유연한 전략을 제안합니다. 이를 위해, 우리는 고정된 사전 학습된 임베딩이 포함된 세 번째 타워를 도입하고, 이 세 번째 타워와 주 이미지-텍스트 타워 간의 정렬을 장려합니다.
'AI > Google&DeepMind' 카테고리의 다른 글
온라인 비확률적 모델 없는 강화학습 (0) | 2023.05.30 |
---|---|
Q-러닝에 대한 보다 효율적인 대안인 VA-러닝 (0) | 2023.05.30 |
대규모 언어모델을 사용한 전문가 수준의 의료 질문 답변을 향하여 (0) | 2023.05.29 |
무작위 위치 인코딩으로 트랜스포머의 길이 일반화 향상 (0) | 2023.05.29 |
생각의 나무(ToT): 대규모 언어 모델을 사용한 고의적 문제 해결 (0) | 2023.05.29 |