AI/etc

Emergent Agentic Transformer와 Hindsight Experience

유로파물고기 2023. 5. 30. 09:53
반응형

https://arxiv.org/abs/2305.16554

 

Emergent Agentic Transformer from Chain of Hindsight Experience

Large transformer models powered by diverse data and model scale have dominated natural language modeling and computer vision and pushed the frontier of multiple AI areas. In reinforcement learning (RL), despite many efforts into transformer-based policies

arxiv.org

1. 다양한 데이터와 모델 크기를 활용하는 대형 트랜스포머 모델은 자연어 모델링과 컴퓨터 비전을 주도하고, 다양한 AI 영역의 전방을 밀어붙였습니다. 그러나 강화 학습(RL)에서는 트랜스포머 기반 정책에 많은 노력을 기울였음에도 불구하고, 현재 트랜스포머 기반 정책의 주요 제한 사항은 여러 서브-최적의 시도에서 직접 정보를 결합하여 학습할 수 없다는 것입니다.


2. 본 논문에서는 최근 제안된 '회고의 연쇄(chain of hindsight)'를 사용하여 이 문제를 해결합니다. 이 방법은 각각의 총 보상에 따라 오름차순으로 정렬된 경험의 연속에 대해 트랜스포머를 훈련시킵니다. 우리의 방법은 각 경로의 목표 반환을 경로의 시퀀스 중 최대 총 보상으로 재표시하고, 과거 상태, 행동, 보상, 목표 반환, 작업 완료 토큰에 의존하여 행동을 예측하는 자동회귀 모델을 훈련시키는 것으로 구성되어 있습니다.

 

3. 결과적으로 생긴 모델인 에이젠트 트랜스포머(AT)는 훈련 시간과 테스트 시간 모두에서 스스로를 개선하도록 학습할 수 있습니다. D4RL 및 ExoRL 벤치마크에서 보여지는 것처럼, 우리의 지식으로는 이것이 단순한 트랜스포머 기반 모델이 시간차 및 모방 학습 기반 접근법과 경쟁할 수 있는 성능을 보이는 첫 번째 사례입니다. 또한, 우리의 에이젠트 트랜스포머는 더 큰 모델이 결과를 지속적으로 개선하는 유망한 확장 경향을 보여줍니다.