반응형
https://arxiv.org/abs/2306.14824
https://github.com/microsoft/unilm/tree/master/kosmos-2
1. 우리는 Kosmos-2라는 멀티 모달 대형 언어 모델을 소개하며, 이는 객체 설명(예: 경계 상자)을 인식하고 텍스트를 시각적 세계에 묶는 새로운 기능을 가능하게 합니다. 구체적으로, 객체 설명은 위치 토큰의 시퀀스이며, 우리는 참조 표현을 Markdown 링크, 즉 "[텍스트 스팬](경계 상자)"로 표현합니다.
2. 멀티모달 말뭉치와 함께, 우리는 지상 이미지-텍스트 쌍의 대규모 데이터(GrIT이라 불림)를 구축하여 모델을 훈련시킵니다. 기존의 MLLMs의 기능들(예: 일반적인 모달리티 인식, 지시사항 따르기, 인-컨텍스트 학습 수행)에 더해, Kosmos-2는 이 지상화 기능을 하류 응용 분야에 통합합니다.
3. 우리는 Kosmos-2를 다양한 작업에서 평가하며, 이에는 (i) 다중 모달 지상화, 예를 들어 참조 표현 이해와 구문 지상화, (ii) 다중 모달 참조, 예를 들어 참조 표현 생성, (iii) 인식-언어 작업, 그리고 (iv) 언어 이해와 생성이 포함됩니다. 이 연구는 Embodiment AI의 개발을 위한 기초를 제공하고, 언어, 다중 모달 인식, 행동, 그리고 세계 모델링의 큰 융합에 대한 인사이트를 제공하며, 이는 인공 일반 지능(AGI)으로의 핵심 단계입니다.
'AI > Microsoft' 카테고리의 다른 글
LongNet: 트랜스포머를 1,000,000,000 토큰으로 확장 (0) | 2023.07.07 |
---|---|
Supervised Pretraining Can Learn In-Context Reinforcement Learning (0) | 2023.06.27 |