AI/etc

Ghost in the Minecraft: 텍스트 기반 지식 및 메모리를 갖춘 대규모 언어 모델을 통해 일반적으로 오픈 월드 환경에 사용할 수 있는 에이전트

유로파물고기 2023. 5. 30. 10:34
반응형

abs: https://arxiv.org/abs/2305.17144

github: https://github.com/OpenGVLab/GITM

 

Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge

The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predomin

arxiv.org

https://youtu.be/qDdd3qp41zo

1. 마인크래프트의 풍부한 플랫폼은 최근 몇 년 동안 많은 연구 관심을 끌었으며, 개방형 환경에서 작동할 수 있는 지능형 에이전트를 개발하는 데 사용되었습니다. 그러나 현재의 연구 상황은 특정 목표, 예를 들어 인기 있는 "ObtainDiamond" 작업에 주로 집중되어 있고, 더 넓은 범위의 작업에 대한 효과적인 일반화를 보여주지 못했습니다. 또한, 현재 "ObtainDiamond" 작업에 대한 성공률은 약 20%로, 기존 방법에서 사용되는 강화 학습(RL) 기반 컨트롤러의 한계를 보여줍니다.

2. 이러한 도전 과제를 해결하기 위해, 우리는 대형 언어 모델(LLMs)을 텍스트 기반 지식과 메모리와 통합하는 새로운 프레임워크인 Ghost in the Minecraft (GITM)를 도입합니다. 이는 마인크래프트에서 일반적으로 능력 있는 에이전트(GCAs)를 만들기 위한 것입니다. 이 에이전트들은 LLMs의 논리와 상식 능력을 갖추고 있으며, 텍스트 기반의 상호작용을 통해 복잡하고 희소 보상 환경을 숙련되게 탐색할 수 있습니다.

3. 우리는 구조화된 동작들을 개발하고, 에이전트가 실행할 동작 계획을 생성하기 위해 LLMs를 활용합니다. 결과적으로 LLM 기반의 에이전트는 이전 방법들을 크게 앞서, "ObtainDiamond" 작업에서 성공률을 47.5% 향상시키며, 전통적인 RL 기반 컨트롤러에 비해 뛰어난 안정성을 보여줍니다. 특히, 우리의 에이전트는 마인크래프트 오버월드 기술 트리에서 모든 아이템을 처음으로 확보하며, 그 광범위한 능력을 보여줍니다. 이 연구는 LLMs가 긴 시간 대기, 복잡한 작업을 처리하고 개방형 환경에서 불확실성에 적응하는 능력 있는 에이전트를 개발하는 데 잠재력이 있다는 것을 보여줍니다.