AI/Microsoft

Kosmos-2: Grounding Multimodal Large Language Models to the World

유로파물고기 2023. 6. 27. 10:34
반응형

https://arxiv.org/abs/2306.14824

 

Kosmos-2: Grounding Multimodal Large Language Models to the World

We introduce Kosmos-2, a Multimodal Large Language Model (MLLM), enabling new capabilities of perceiving object descriptions (e.g., bounding boxes) and grounding text to the visual world. Specifically, we represent refer expressions as links in Markdown, i

arxiv.org

https://github.com/microsoft/unilm/tree/master/kosmos-2

 

GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities - GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

github.com

1. 우리는 Kosmos-2라는 멀티 모달 대형 언어 모델을 소개하며, 이는 객체 설명(예: 경계 상자)을 인식하고 텍스트를 시각적 세계에 묶는 새로운 기능을 가능하게 합니다. 구체적으로, 객체 설명은 위치 토큰의 시퀀스이며, 우리는 참조 표현을 Markdown 링크, 즉 "[텍스트 스팬](경계 상자)"로 표현합니다.

 

2. 멀티모달 말뭉치와 함께, 우리는 지상 이미지-텍스트 쌍의 대규모 데이터(GrIT이라 불림)를 구축하여 모델을 훈련시킵니다. 기존의 MLLMs의 기능들(예: 일반적인 모달리티 인식, 지시사항 따르기, 인-컨텍스트 학습 수행)에 더해, Kosmos-2는 이 지상화 기능을 하류 응용 분야에 통합합니다.

 

3. 우리는 Kosmos-2를 다양한 작업에서 평가하며, 이에는 (i) 다중 모달 지상화, 예를 들어 참조 표현 이해와 구문 지상화, (ii) 다중 모달 참조, 예를 들어 참조 표현 생성, (iii) 인식-언어 작업, 그리고 (iv) 언어 이해와 생성이 포함됩니다. 이 연구는 Embodiment AI의 개발을 위한 기초를 제공하고, 언어, 다중 모달 인식, 행동, 그리고 세계 모델링의 큰 융합에 대한 인사이트를 제공하며, 이는 인공 일반 지능(AGI)으로의 핵심 단계입니다.