AI/Google&DeepMind

이미지 캡셔너는 확장 가능한 비전 학습자이기도 합니다.

유로파물고기 2023. 6. 14. 15:56
반응형

https://arxiv.org/abs/2306.07915

 

Image Captioners Are Scalable Vision Learners Too

Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is co

arxiv.org

1. 웹에서 이미지-텍스트 쌍에 대한 대조적 사전학습은, 특히 대형 다중모달 모델의 맥락에서, 비전 백본에 대한 가장 인기 있는 대규모 사전학습 전략 중 하나입니다. 동시에, 이러한 유형의 데이터에 대한 이미지 캡셔닝은 일반적으로 하위 사전학습 전략으로 간주됩니다.

 

2. 이 논문에서는 이 두 가지 사전학습 전략을 공정하게 비교하고, 학습 데이터, 계산, 모델 용량을 신중하게 맞춥니다. 표준 인코더-디코더 변환기를 사용하여, 캡션 만으로도 놀랍게도 효과적이라는 것을 발견했습니다: 분류 작업에서, 캡셔닝은 대조적으로 사전 학습된 인코더와 경쟁력 있는 비전 인코더를 생성하면서, 비전 및 언어 작업에서 그들을 능가합니다.

 

3. 또한 모델 아키텍처와 규모, 그리고 사전학습 데이터의 표현 품질에 미치는 영향을 분석하고, 이러한 축을 따라 캡셔닝이 같거나 더 나은 스케일링 행동을 보이는 것을 발견했습니다. 전반적으로 우리의 결과는 단순 이미지 캡셔닝이 이전에 생각했던 것보다 더 강력한 사전학습 전략이라는 것을 보여줍니다.