abs: https://arxiv.org/abs/2305.17144
github: https://github.com/OpenGVLab/GITM
1. 마인크래프트의 풍부한 플랫폼은 최근 몇 년 동안 많은 연구 관심을 끌었으며, 개방형 환경에서 작동할 수 있는 지능형 에이전트를 개발하는 데 사용되었습니다. 그러나 현재의 연구 상황은 특정 목표, 예를 들어 인기 있는 "ObtainDiamond" 작업에 주로 집중되어 있고, 더 넓은 범위의 작업에 대한 효과적인 일반화를 보여주지 못했습니다. 또한, 현재 "ObtainDiamond" 작업에 대한 성공률은 약 20%로, 기존 방법에서 사용되는 강화 학습(RL) 기반 컨트롤러의 한계를 보여줍니다.
2. 이러한 도전 과제를 해결하기 위해, 우리는 대형 언어 모델(LLMs)을 텍스트 기반 지식과 메모리와 통합하는 새로운 프레임워크인 Ghost in the Minecraft (GITM)를 도입합니다. 이는 마인크래프트에서 일반적으로 능력 있는 에이전트(GCAs)를 만들기 위한 것입니다. 이 에이전트들은 LLMs의 논리와 상식 능력을 갖추고 있으며, 텍스트 기반의 상호작용을 통해 복잡하고 희소 보상 환경을 숙련되게 탐색할 수 있습니다.
3. 우리는 구조화된 동작들을 개발하고, 에이전트가 실행할 동작 계획을 생성하기 위해 LLMs를 활용합니다. 결과적으로 LLM 기반의 에이전트는 이전 방법들을 크게 앞서, "ObtainDiamond" 작업에서 성공률을 47.5% 향상시키며, 전통적인 RL 기반 컨트롤러에 비해 뛰어난 안정성을 보여줍니다. 특히, 우리의 에이전트는 마인크래프트 오버월드 기술 트리에서 모든 아이템을 처음으로 확보하며, 그 광범위한 능력을 보여줍니다. 이 연구는 LLMs가 긴 시간 대기, 복잡한 작업을 처리하고 개방형 환경에서 불확실성에 적응하는 능력 있는 에이전트를 개발하는 데 잠재력이 있다는 것을 보여줍니다.
'AI > etc' 카테고리의 다른 글
Just Forward 패스로 언어 모델 미세 조정 (0) | 2023.05.30 |
---|---|
마음의 눈 재구성: fMRI-to-Image with Contrastive Learning 및 Diffusion Priors (0) | 2023.05.30 |
임의의 특징을 사용하여 전이하는 자기 지도 강화학습 (0) | 2023.05.30 |
멀티모달 언어 모델로 이미지 생성 (0) | 2023.05.30 |
대규모 언어 모델은 게으른 학습자가 될 수 있습니다: 상황 내 학습의 지름길 분석 (0) | 2023.05.30 |