반응형
https://arxiv.org/abs/2306.07915
1. 웹에서 이미지-텍스트 쌍에 대한 대조적 사전학습은, 특히 대형 다중모달 모델의 맥락에서, 비전 백본에 대한 가장 인기 있는 대규모 사전학습 전략 중 하나입니다. 동시에, 이러한 유형의 데이터에 대한 이미지 캡셔닝은 일반적으로 하위 사전학습 전략으로 간주됩니다.
2. 이 논문에서는 이 두 가지 사전학습 전략을 공정하게 비교하고, 학습 데이터, 계산, 모델 용량을 신중하게 맞춥니다. 표준 인코더-디코더 변환기를 사용하여, 캡션 만으로도 놀랍게도 효과적이라는 것을 발견했습니다: 분류 작업에서, 캡셔닝은 대조적으로 사전 학습된 인코더와 경쟁력 있는 비전 인코더를 생성하면서, 비전 및 언어 작업에서 그들을 능가합니다.
3. 또한 모델 아키텍처와 규모, 그리고 사전학습 데이터의 표현 품질에 미치는 영향을 분석하고, 이러한 축을 따라 캡셔닝이 같거나 더 나은 스케일링 행동을 보이는 것을 발견했습니다. 전반적으로 우리의 결과는 단순 이미지 캡셔닝이 이전에 생각했던 것보다 더 강력한 사전학습 전략이라는 것을 보여줍니다.
'AI > Google&DeepMind' 카테고리의 다른 글
Block-State Transformer (0) | 2023.06.19 |
---|---|
로봇 기술 합성에 대한 보상을 위한 언어 (0) | 2023.06.18 |
딥마인드 AlphaDev: 새로운 접근법으로 더 빠른 정렬 알고리즘 발견 (0) | 2023.06.08 |
SQL-PaLM: Text-to-SQL을 위한 개선된 대규모 언어 모델 적응 (0) | 2023.06.02 |
브레인포머: 효율성을 위한 거래 단순성 (0) | 2023.06.02 |