반응형
https://arxiv.org/abs/2305.18565
PaLI-X라는 다국어 비전 및 언어 모델을 확대 규모로 훈련하는 방법과 결과에 대해 설명합니다. 이 모델은 구성요소의 크기와 교육 작업 조합의 범위 모두를 확대하여, 다양하고 복잡한 작업에 대한 새로운 수준의 성능을 달성합니다. 이러한 작업에는 여러 이미지 기반 캡션 생성 및 질문-응답 작업, 이미지 기반 문서 이해 및 적은 수의 샷(상황 내) 학습, 그리고 객체 탐지, 비디오 질문 응답, 비디오 캡션 생성이 포함됩니다. PaLI-X는 고려된 비전-언어 벤치마크 대부분(25개 이상)에서 최신 기술을 초월합니다. 마지막으로, 복잡한 계산 및 다국어 객체 탐지와 같은 신흥 능력을 관찰하였는데, 이러한 작업은 훈련 조합에 명시적으로 포함되어 있지 않습니다.
'AI > Google&DeepMind' 카테고리의 다른 글
브레인포머: 효율성을 위한 거래 단순성 (0) | 2023.06.02 |
---|---|
더 크게, 더 좋게, 더 빠르게: 인간 수준의 효율성을 갖춘 인간 수준의 Atari (0) | 2023.06.01 |
온라인 비확률적 모델 없는 강화학습 (0) | 2023.05.30 |
Q-러닝에 대한 보다 효율적인 대안인 VA-러닝 (0) | 2023.05.30 |
Three Towers: 사전 훈련된 이미지 모델을 사용한 유연한 대조 학습 (0) | 2023.05.30 |