AI/Google&DeepMind

PaLI-X: 다국어 비전 및 언어 모델 확장

유로파물고기 2023. 5. 31. 09:44
반응형

https://arxiv.org/abs/2305.18565

 

PaLI-X: On Scaling up a Multilingual Vision and Language Model

We present the training recipe and results of scaling up PaLI-X, a multilingual vision and language model, both in terms of size of the components and the breadth of its training task mixture. Our model achieves new levels of performance on a wide-range of

arxiv.org

PaLI-X라는 다국어 비전 및 언어 모델을 확대 규모로 훈련하는 방법과 결과에 대해 설명합니다. 이 모델은 구성요소의 크기와 교육 작업 조합의 범위 모두를 확대하여, 다양하고 복잡한 작업에 대한 새로운 수준의 성능을 달성합니다. 이러한 작업에는 여러 이미지 기반 캡션 생성 및 질문-응답 작업, 이미지 기반 문서 이해 및 적은 수의 샷(상황 내) 학습, 그리고 객체 탐지, 비디오 질문 응답, 비디오 캡션 생성이 포함됩니다. PaLI-X는 고려된 비전-언어 벤치마크 대부분(25개 이상)에서 최신 기술을 초월합니다. 마지막으로, 복잡한 계산 및 다국어 객체 탐지와 같은 신흥 능력을 관찰하였는데, 이러한 작업은 훈련 조합에 명시적으로 포함되어 있지 않습니다.