AI/Google&DeepMind

Three Towers: 사전 훈련된 이미지 모델을 사용한 유연한 대조 학습

유로파물고기 2023. 5. 30. 09:47
반응형

https://arxiv.org/abs/2305.16999

 

Three Towers: Flexible Contrastive Learning with Pretrained Image Models

We introduce Three Towers (3T), a flexible method to improve the contrastive learning of vision-language models by incorporating pretrained image classifiers. While contrastive models are usually trained from scratch, LiT (Zhai et al., 2022) has recently s

arxiv.org

 

1. 본 논문에서는 사전에 학습된 이미지 분류기를 활용하여 시각-언어 모델의 대조 학습을 개선하는 유연한 방법인 Three Towers (3T)를 소개합니다.

2. 대조적인 모델은 보통 처음부터 학습되지만, 최근에는 사전에 학습된 분류기 임베딩을 활용하여 성능 향상을 보인 LiT (Zhai 등, 2022)가 있습니다. 그러나 LiT는 이미지 타워를 고정된 임베딩으로 직접 대체하여, 이미지 타워를 대조적으로 학습하는 잠재적 이점을 배제하고 있습니다.

3. 3T는 이미지 타워가 사전 학습된 임베딩과 대조적인 학습 둘 다의 이점을 누릴 수 있도록 더 유연한 전략을 제안합니다. 이를 위해, 우리는 고정된 사전 학습된 임베딩이 포함된 세 번째 타워를 도입하고, 이 세 번째 타워와 주 이미지-텍스트 타워 간의 정렬을 장려합니다.