반응형
https://arxiv.org/abs/2305.16355
설명: https://twitter.com/yixuan_su/status/1661064018868551691?s=20
1. 우리는 PandaGPT라는 방법을 제시하는데, 이는 대형 언어 모델에 시각적이며 청각적인 지시사항 따르는 능력을 부
여하는 것입니다. 초기 실험 결과로서, PandaGPT는 자세한 이미지 설명 생성, 비디오에서 영감을 얻어 이야기를 쓰는 것, 오디오에 대한 질문에 대답하는 등 복잡한 작업을 수행할 수 있음을 보여주었습니다.
2. 더욱 흥미롭게도, PandaGPT는 다양한 형태의 입력을 동시에 받아들이고 이를 자연스럽게 결합할 수 있습니다. 예를 들어, PandaGPT는 이미지/비디오에서 객체가 어떻게 보이는지와 오디오에서 어떻게 들리는지를 연결할 수 있습니다. 이를 위해, PandaGPT는 ImageBind의 다중 모달 인코더와 Vicuna의 대형 언어 모델을 결합합니다.
3. PandaGPT의 훈련에는 정렬된 이미지-텍스트 쌍만이 필요합니다. ImageBind의 강력한 능력 덕분에, PandaGPT는 이미지와 텍스트 이외의 데이터(예: 비디오, 오디오, 깊이, 열, IMU)에 대해 새로운, 즉 제로샷, 크로스-모달 동작을 보여줍니다. 우리는 PandaGPT가 인간처럼 다양한 형태의 입력을 전체적으로 인식하고 이해하는 인공 일반 지능(AGI) 구축을 향한 첫걸음이 되기를 바랍니다.
'AI > etc' 카테고리의 다른 글
대규모 언어모델로 반복 게임하기 (0) | 2023.05.29 |
---|---|
BiomGPT: 비전, 언어 및 멀티모달 작업을 위한 통합 및 제너럴리스트 Biomedic GPT (0) | 2023.05.29 |
행동하기 전에 생각하기: 내부 작업 기억을 가진 의사 결정 트랜스포머 (0) | 2023.05.29 |
Adam보다 2배 빠른 새로운 옵티마이저 소피아 (0) | 2023.05.29 |
일부 신경망은 인간처럼 언어를 배웁니다 (0) | 2023.05.29 |