AI/Google&DeepMind

온라인 비확률적 모델 없는 강화학습

유로파물고기 2023. 5. 30. 21:43
반응형

abs: https://arxiv.org/abs/2305.17552

 

Online Nonstochastic Model-Free Reinforcement Learning

In this work, we explore robust model-free reinforcement learning algorithms for environments that may be dynamic or even adversarial. Conventional state-based policies fail to accommodate the challenge imposed by the presence of unmodeled disturbances in

arxiv.org

 

1. 이 연구에서는 동적이거나 적대적일 수 있는 환경에 대한 강건한 모델-프리 강화학습 알고리즘을 탐구합니다. 일반적인 상태 기반 정책은 이러한 설정에서 모델링되지 않은 장애물에 의해 부과되는 도전을 수용하는 데 실패합니다. 또한, 선형 상태 기반 정책을 최적화하는 것은 효율적인 최적화를 방해하며, 선형 동적 시스템과 같은 친숙한 환경에서도 비볼록 목표를 초래합니다.

 

2. 최근 모델 기반 제어의 발전에서 영감을 얻어, 장애 신호를 중심으로 하는 새로운 정책 클래스를 도입합니다. 우리는 이러한 신호들을 '의사-장애'라고 부르며, 이에 기반한 여러 가지 정책 클래스를 정의합니다. 이러한 정책들을 최적화하기 위한 효율적이고 실용적인 알고리즘을 제공합니다.

 

3. 다음으로, 우리는 강화 학습 에이전트가 적대적인 장애에 대해 온라인으로 적응하는 작업을 검토합니다. 우리의 방법은 어떤 블랙박스 모델-프리 접근법과도 통합될 수 있으며, 기본 동력이 선형이라면 입증된 후회 보증을 제공합니다. 우리는 우리의 방법을 다른 표준 RL 벤치마크들에서 평가하고 강건성이 향상되었음을 보여줍니다.