AI/etc

생성 후 선택: World Knowledge가 안내하는 개방형 시각적 질문 답변

유로파물고기 2023. 5. 31. 09:56
반응형

https://arxiv.org/abs/2305.18842

 

Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge

The open-ended Visual Question Answering (VQA) task requires AI models to jointly reason over visual and natural language inputs using world knowledge. Recently, pre-trained Language Models (PLM) such as GPT-3 have been applied to the task and shown to be

arxiv.org

 

1. 개방형 시각 질문 응답(VQA) 작업은 AI 모델이 세계 지식을 이용하여 시각적 그리고 자연어 입력을 공동으로 추론하게 하는 작업입니다. 최근에는 GPT-3과 같은 사전 학습된 언어 모델(PLM)이 이 작업에 적용되어 강력한 세계 지식 출처로 작용하였지만, 이러한 방법은 PLM의 편향으로 인해 지식 범위가 제한되며, PLM의 질에 많이 의존한다는 문제가 있습니다.

 

2. 이러한 도전 과제를 해결하기 위해, 우리는 세계 지식에 기반한 생성 후 선택 전략을 처음으로 도입하는 새로운 VQA 파이프라인인 RASO를 제안합니다. RASO는 VQA 답변을 직접 생성하는 다중 모달 모델을 훈련하는 표준 방법을 따르지 않고, 먼저 PLM을 사용하여 가능한 모든 답변을 생성한 후, 가벼운 답변 선택 모델을 훈련하여 올바른 답변을 선택합니다.

 

3. 우리의 분석에서 증명된 바와 같이 RASO는 도메인 내 학습 데이터로부터 지식 범위를 크게 확장합니다. 우리는 광범위한 실험을 제공하며, 추가적인 계산 비용 없이 OK-VQA에서 최첨단 성능을 4.1% 향상시킴으로써 우리 파이프라인의 효과성을 보여줍니다. 코드와 모델은 이 URL에서 제공됩니다.

https://cogcomp.seas.upenn.edu/page/publication_view/1010