Supervised Pretraining Can Learn In-Context Reinforcement Learning

AI/Microsoft

Supervised Pretraining Can Learn In-Context Reinforcement Learning

유로파물고기 2023. 6. 27. 10:56

Large transformer models trained on diverse datasets have shown a remarkable ability to learn in-context, achieving high few-shot performance on tasks they were not explicitly trained to solve. In this paper, we study the in-context learning capabilities o

arxiv.org

1. 다양한 데이터셋에서 훈련된 대형 트랜스포머 모델은 맥락 중심의 학습 능력을 보여, 명시적으로 훈련받지 않은 작업에서도 뛰어난 few-shot 성능을 보여주었습니다. 이 논문에서는 강화 학습(RL)의 관점에서 트랜스포머의 맥락 중심 학습 능력을 연구합니다.

2. 이를 위해 우리는 Decision-Pretrained Transformer (DPT)라는 감독 학습 방법을 소개하고 연구합니다. DPT는 다양한 작업에서 질의 상태와 상호작용의 맥락 중심 데이터셋을 주어졌을 때 최적의 행동을 예측하는 트랜스포머입니다. 이 간단한 절차는 모델에 여러 가지 놀라운 능력을 부여합니다.

3. 우리는 사전 학습된 트랜스포머를 사용하여 맥락 중심으로 다양한 RL 문제를 해결할 수 있으며, 트랜스포머는 명시적으로 그렇게 훈련받지 않았음에도 불구하고 탐색과 보수주의를 동시에 보여줍니다. 또한 모델은 사전 학습 분포를 넘어 새로운 작업에 일반화하고 알려지지 않은 구조에 대한 결정 전략을 자동으로 적응합니다. 이 결과들은 트랜스포머에 강력한 맥락 중심의 결정 능력을 부여하는 단순하면서도 유망한 방법을 제시합니다.

'AI > Microsoft' 카테고리의 다른 글

LongNet: 트랜스포머를 1,000,000,000 토큰으로 확장 (0)	2023.07.07
Kosmos-2: Grounding Multimodal Large Language Models to the World (0)	2023.06.27

현재글Supervised Pretraining Can Learn In-Context Reinforcement Learning

Foundation Models for Robotics,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

SUI