AI/etc

임의의 특징을 사용하여 전이하는 자기 지도 강화학습

유로파물고기 2023. 5. 30. 10:24
반응형

abs: https://arxiv.org/abs/2305.17250

 

Self-Supervised Reinforcement Learning that Transfers using Random Features

Model-free reinforcement learning algorithms have exhibited great potential in solving single-task sequential decision-making problems with high-dimensional observations and long horizons, but are known to be hard to generalize across tasks. Model-based RL

arxiv.org

설명: https://twitter.com/abhishekunique7/status/1663400718542471168?s=20

 

1. 모델-자유 강화 학습 알고리즘이 고차원 관찰과 긴 시간 대기의 단일 작업 순차적 결정 문제를 해결하는 데 큰 잠재력을 보였지만, 작업 간 일반화하기 어렵다는 것이 알려져 있습니다. 반면에, 모델 기반 RL은 작업에 무관한 세계 모델을 학습하여 다른 보상 함수 간 전송을 가능하게 하지만, 복합 오류로 인해 복잡한 환경에 대응하는 데 어려움을 겪습니다.

2. 이 두 세계의 장점을 모두 활용하기 위해, 우리는 다른 보상을 가진 작업 간의 행동 전환을 가능하게 하는 동시에 모델 기반 RL의 도전 과제를 회피하는 자기 감독 강화 학습 방법을 제안합니다. 특히, 무작위 특성을 보상으로 사용하여 모델-자유 강화 학습의 자기 감독 사전 훈련을 통해 장기적인 환경 동력학의 암시적 모델링을 가능하게 하는 것을 보여줍니다.

3. 그런 다음, 이러한 암시적 모델을 사용한 모델 예측 제어와 같은 계획 기법을 통해 새로운 보상 함수를 가진 문제에 빠르게 적응할 수 있습니다. 우리의 방법은 보상 라벨이 없는 오프라인 데이터셋에서 훈련할 수 있으며, 그런 다음 새로운 작업에 빠르게 배포될 수 있도록 자체 감독입니다. 우리는 다양한 조작 및 이동 영역에서의 시뮬레이션을 통해 우리의 제안된 방법이 작업 간 전환을 가능하게 하는 것을 검증하였습니다. 이는 일반적인 의사결정 에이전트를 가능하게 하는 문을 엽니다.