카테고리 없음

Spring: GPT-4는 논문과 추론을 연구하여 RL 알고리즘을 능가합니다.

유로파물고기 2023. 5. 30. 22:23
반응형

https://arxiv.org/abs/2305.15486

1. 오픈 월드 서바이벌 게임은 다중 작업, 깊은 탐색, 목표 우선 순위 설정 요구 등으로 인해 AI 알고리즘에 대한 중대한 도전을 제기합니다. 강화학습(RL)이 게임 해결에 대중적이지만, 그 샘플 복잡성은 Crafter나 마인크래프트와 같은 복잡한 오픈 월드 게임에서의 효과성을 제한합니다.

2. 우리는 SPRING이라는 새로운 접근법을 제안합니다. 이는 게임의 원래 학술 논문을 읽고, 대형 언어 모델 (LLM)을 통해 배운 지식을 이용하여 게임을 추론하고 플레이합니다. 게임 컨텍스트로 LaTeX 소스와 에이전트의 현재 관찰 설명이 제시되면, SPRING 프레임워크는 게임 관련 질문이 노드이고 의존성이 엣지인 유향 비순환 그래프(DAG)를 활용합니다.

3. 우리는 환경에서 취할 최적의 행동을 DAG를 순회하고 LLM 응답을 각 노드에 대해 위상적 순서로 계산함으로써 확인합니다. 여기서 LLM의 최종 노드에 대한 대답이 환경 행동으로 직접 변환됩니다. 실험에서는 Crafter 오픈 월드 환경 설정하에 다양한 프롬프트 형태로 유도된 인 컨텍스트 "추론"의 질을 연구합니다. 실험은 일관된 사고의 연쇄에 대해 프롬프트되었을 때 LLM들이 복잡한 고수준의 궤적을 완성하는 데 큰 잠재력이 있다는 것을 보여줍니다.

 

SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning

Open-world survival games pose significant challenges for AI algorithms due to their multi-tasking, deep exploration, and goal prioritization requirements. Despite reinforcement learning (RL) being popular for solving games, its high sample complexity limi

arxiv.org