AI/Microsoft

Supervised Pretraining Can Learn In-Context Reinforcement Learning

유로파물고기 2023. 6. 27. 10:56
반응형

https://arxiv.org/abs/2306.14892

 

Supervised Pretraining Can Learn In-Context Reinforcement Learning

Large transformer models trained on diverse datasets have shown a remarkable ability to learn in-context, achieving high few-shot performance on tasks they were not explicitly trained to solve. In this paper, we study the in-context learning capabilities o

arxiv.org

1. 다양한 데이터셋에서 훈련된 대형 트랜스포머 모델은 맥락 중심의 학습 능력을 보여, 명시적으로 훈련받지 않은 작업에서도 뛰어난 few-shot 성능을 보여주었습니다. 이 논문에서는 강화 학습(RL)의 관점에서 트랜스포머의 맥락 중심 학습 능력을 연구합니다.

 

2. 이를 위해 우리는 Decision-Pretrained Transformer (DPT)라는 감독 학습 방법을 소개하고 연구합니다. DPT는 다양한 작업에서 질의 상태와 상호작용의 맥락 중심 데이터셋을 주어졌을 때 최적의 행동을 예측하는 트랜스포머입니다. 이 간단한 절차는 모델에 여러 가지 놀라운 능력을 부여합니다.

 

3. 우리는 사전 학습된 트랜스포머를 사용하여 맥락 중심으로 다양한 RL 문제를 해결할 수 있으며, 트랜스포머는 명시적으로 그렇게 훈련받지 않았음에도 불구하고 탐색과 보수주의를 동시에 보여줍니다. 또한 모델은 사전 학습 분포를 넘어 새로운 작업에 일반화하고 알려지지 않은 구조에 대한 결정 전략을 자동으로 적응합니다. 이 결과들은 트랜스포머에 강력한 맥락 중심의 결정 능력을 부여하는 단순하면서도 유망한 방법을 제시합니다.