PaLI-X: 다국어 비전 및 언어 모델 확장

AI/Google&DeepMind

PaLI-X: 다국어 비전 및 언어 모델 확장

유로파물고기 2023. 5. 31. 09:44

PaLI-X: On Scaling up a Multilingual Vision and Language Model

We present the training recipe and results of scaling up PaLI-X, a multilingual vision and language model, both in terms of size of the components and the breadth of its training task mixture. Our model achieves new levels of performance on a wide-range of

arxiv.org

PaLI-X라는 다국어 비전 및 언어 모델을 확대 규모로 훈련하는 방법과 결과에 대해 설명합니다. 이 모델은 구성요소의 크기와 교육 작업 조합의 범위 모두를 확대하여, 다양하고 복잡한 작업에 대한 새로운 수준의 성능을 달성합니다. 이러한 작업에는 여러 이미지 기반 캡션 생성 및 질문-응답 작업, 이미지 기반 문서 이해 및 적은 수의 샷(상황 내) 학습, 그리고 객체 탐지, 비디오 질문 응답, 비디오 캡션 생성이 포함됩니다. PaLI-X는 고려된 비전-언어 벤치마크 대부분(25개 이상)에서 최신 기술을 초월합니다. 마지막으로, 복잡한 계산 및 다국어 객체 탐지와 같은 신흥 능력을 관찰하였는데, 이러한 작업은 훈련 조합에 명시적으로 포함되어 있지 않습니다.

'AI > Google&DeepMind' 카테고리의 다른 글

브레인포머: 효율성을 위한 거래 단순성 (0)	2023.06.02
더 크게, 더 좋게, 더 빠르게: 인간 수준의 효율성을 갖춘 인간 수준의 Atari (0)	2023.06.01
온라인 비확률적 모델 없는 강화학습 (0)	2023.05.30
Q-러닝에 대한 보다 효율적인 대안인 VA-러닝 (0)	2023.05.30
Three Towers: 사전 훈련된 이미지 모델을 사용한 유연한 대조 학습 (0)	2023.05.30

현재글PaLI-X: 다국어 비전 및 언어 모델 확장

Foundation Models for Robotics,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

SUI