AI/Google&DeepMind

Q-러닝에 대한 보다 효율적인 대안인 VA-러닝

유로파물고기 2023. 5. 30. 10:39
반응형

abs: https://arxiv.org/abs/2305.18161

 

VA-learning as a more efficient alternative to Q-learning

In reinforcement learning, the advantage function is critical for policy improvement, but is often extracted from a learned Q-function. A natural question is: Why not learn the advantage function directly? In this work, we introduce VA-learning, which dire

arxiv.org

1. 강화 학습에서 이점 함수는 정책 개선에 있어 중요하지만, 대부분 학습된 Q-함수로부터 추출됩니다. 자연스럽게 떠오르는 질문은, 왜 이점 함수를 직접 배우지 않는가 하는 것입니다.

2. 이 연구에서, 우리는 VA-학습을 소개합니다. 이 방법은 Q-함수를 명시적으로 참조하지 않고 부트스트래핑을 사용하여 이점 함수와 가치 함수를 직접 배웁니다. VA-학습은 정책 외부에서 학습하며, Q-학습과 유사한 이론적 보장을 즐깁니다.

3. 이점 함수와 가치 함수의 직접적인 학습 덕분에, VA-학습은 표 구현과 Atari-57 게임에서의 딥 RL 에이전트에서 Q-학습에 대한 샘플 효율성을 개선합니다. 또한, 우리는 VA-학습과 두뇌 아키텍처 간의 밀접한 연결을 확인하며, 이는 DQN 에이전트에 간단한 구조 변경이 성능을 향상시키는 경향을 부분적으로 설명합니다.