반응형
abs: https://arxiv.org/abs/2305.17216
설명-> https://twitter.com/kohjingyu/status/1663537830771998720?s=20
1. 우리는 임베딩 공간을 매핑함으로써 고정된 텍스트 전용 대형 언어 모델(LLMs)과 사전 훈련된 이미지 인코더 및 디코더 모델을 융합하는 방법을 제안합니다. 우리의 모델은 이미지 검색, 새로운 이미지 생성, 그리고 다중 모달 대화와 같은 다양한 다중 모달 기능을 보여줍니다.
2. 우리의 접근법은 임의로 섞인 이미지와 텍스트 입력에 조건을 부여하여 일관성 있는 이미지(및 텍스트) 출력을 생성할 수 있는 첫 번째 방법입니다. 강력한 이미지 생성 성능을 달성하기 위해, 우리는 텍스트를 이미지로 변환하는 모델에 LLM을 연결하는 효율적인 매핑 네트워크를 제안합니다.
3. 이 매핑 네트워크는 텍스트의 숨겨진 표현을 시각 모델의 임베딩 공간으로 번역함으로써, 우리가 LLM의 강력한 텍스트 표현을 시각적 출력에 활용할 수 있게 합니다. 우리의 접근법은 더 긴 및 더 복잡한 언어를 가진 작업에서 기본 생성 모델을 능가합니다.
'AI > etc' 카테고리의 다른 글
Ghost in the Minecraft: 텍스트 기반 지식 및 메모리를 갖춘 대규모 언어 모델을 통해 일반적으로 오픈 월드 환경에 사용할 수 있는 에이전트 (0) | 2023.05.30 |
---|---|
임의의 특징을 사용하여 전이하는 자기 지도 강화학습 (0) | 2023.05.30 |
대규모 언어 모델은 게으른 학습자가 될 수 있습니다: 상황 내 학습의 지름길 분석 (0) | 2023.05.30 |
직접적인 선호 최적화: 당신의 언어 모델은 비밀리에 보상 모델입니다 (0) | 2023.05.30 |
사전 훈련된 언어 모델을 위한 플러그 앤 플레이 지식 주입 (0) | 2023.05.30 |