AI/etc

멀티모달 언어 모델로 이미지 생성

유로파물고기 2023. 5. 30. 10:21
반응형

abs: https://arxiv.org/abs/2305.17216

 

Generating Images with Multimodal Language Models

We propose a method to fuse frozen text-only large language models (LLMs) with pre-trained image encoder and decoder models, by mapping between their embedding spaces. Our model demonstrates a wide suite of multimodal capabilities: image retrieval, novel i

arxiv.org

설명-> https://twitter.com/kohjingyu/status/1663537830771998720?s=20

 

1. 우리는 임베딩 공간을 매핑함으로써 고정된 텍스트 전용 대형 언어 모델(LLMs)과 사전 훈련된 이미지 인코더 및 디코더 모델을 융합하는 방법을 제안합니다. 우리의 모델은 이미지 검색, 새로운 이미지 생성, 그리고 다중 모달 대화와 같은 다양한 다중 모달 기능을 보여줍니다.

2. 우리의 접근법은 임의로 섞인 이미지와 텍스트 입력에 조건을 부여하여 일관성 있는 이미지(및 텍스트) 출력을 생성할 수 있는 첫 번째 방법입니다. 강력한 이미지 생성 성능을 달성하기 위해, 우리는 텍스트를 이미지로 변환하는 모델에 LLM을 연결하는 효율적인 매핑 네트워크를 제안합니다.

3. 이 매핑 네트워크는 텍스트의 숨겨진 표현을 시각 모델의 임베딩 공간으로 번역함으로써, 우리가 LLM의 강력한 텍스트 표현을 시각적 출력에 활용할 수 있게 합니다. 우리의 접근법은 더 긴 및 더 복잡한 언어를 가진 작업에서 기본 생성 모델을 능가합니다.