반응형
abs: https://arxiv.org/abs/2305.18161
1. 강화 학습에서 이점 함수는 정책 개선에 있어 중요하지만, 대부분 학습된 Q-함수로부터 추출됩니다. 자연스럽게 떠오르는 질문은, 왜 이점 함수를 직접 배우지 않는가 하는 것입니다.
2. 이 연구에서, 우리는 VA-학습을 소개합니다. 이 방법은 Q-함수를 명시적으로 참조하지 않고 부트스트래핑을 사용하여 이점 함수와 가치 함수를 직접 배웁니다. VA-학습은 정책 외부에서 학습하며, Q-학습과 유사한 이론적 보장을 즐깁니다.
3. 이점 함수와 가치 함수의 직접적인 학습 덕분에, VA-학습은 표 구현과 Atari-57 게임에서의 딥 RL 에이전트에서 Q-학습에 대한 샘플 효율성을 개선합니다. 또한, 우리는 VA-학습과 두뇌 아키텍처 간의 밀접한 연결을 확인하며, 이는 DQN 에이전트에 간단한 구조 변경이 성능을 향상시키는 경향을 부분적으로 설명합니다.
'AI > Google&DeepMind' 카테고리의 다른 글
PaLI-X: 다국어 비전 및 언어 모델 확장 (0) | 2023.05.31 |
---|---|
온라인 비확률적 모델 없는 강화학습 (0) | 2023.05.30 |
Three Towers: 사전 훈련된 이미지 모델을 사용한 유연한 대조 학습 (0) | 2023.05.30 |
대규모 언어모델을 사용한 전문가 수준의 의료 질문 답변을 향하여 (0) | 2023.05.29 |
무작위 위치 인코딩으로 트랜스포머의 길이 일반화 향상 (0) | 2023.05.29 |