Q-러닝에 대한 보다 효율적인 대안인 VA-러닝

AI/Google&DeepMind

Q-러닝에 대한 보다 효율적인 대안인 VA-러닝

유로파물고기 2023. 5. 30. 10:39

VA-learning as a more efficient alternative to Q-learning

In reinforcement learning, the advantage function is critical for policy improvement, but is often extracted from a learned Q-function. A natural question is: Why not learn the advantage function directly? In this work, we introduce VA-learning, which dire

arxiv.org

1. 강화 학습에서 이점 함수는 정책 개선에 있어 중요하지만, 대부분 학습된 Q-함수로부터 추출됩니다. 자연스럽게 떠오르는 질문은, 왜 이점 함수를 직접 배우지 않는가 하는 것입니다.

2. 이 연구에서, 우리는 VA-학습을 소개합니다. 이 방법은 Q-함수를 명시적으로 참조하지 않고 부트스트래핑을 사용하여 이점 함수와 가치 함수를 직접 배웁니다. VA-학습은 정책 외부에서 학습하며, Q-학습과 유사한 이론적 보장을 즐깁니다.

3. 이점 함수와 가치 함수의 직접적인 학습 덕분에, VA-학습은 표 구현과 Atari-57 게임에서의 딥 RL 에이전트에서 Q-학습에 대한 샘플 효율성을 개선합니다. 또한, 우리는 VA-학습과 두뇌 아키텍처 간의 밀접한 연결을 확인하며, 이는 DQN 에이전트에 간단한 구조 변경이 성능을 향상시키는 경향을 부분적으로 설명합니다.

'AI > Google&DeepMind' 카테고리의 다른 글

PaLI-X: 다국어 비전 및 언어 모델 확장 (0)	2023.05.31
온라인 비확률적 모델 없는 강화학습 (0)	2023.05.30
Three Towers: 사전 훈련된 이미지 모델을 사용한 유연한 대조 학습 (0)	2023.05.30
대규모 언어모델을 사용한 전문가 수준의 의료 질문 답변을 향하여 (0)	2023.05.29
무작위 위치 인코딩으로 트랜스포머의 길이 일반화 향상 (0)	2023.05.29

현재글Q-러닝에 대한 보다 효율적인 대안인 VA-러닝

Foundation Models for Robotics,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

SUI