반응형
https://arxiv.org/abs/2305.19452
https://github.com/google-research/google-research/tree/master/bigger_better_faster
Atari 100K 벤치마크에서 초인적인 성능을 달성하는 BBF라고 하는 가치 기반 RL 에이전트를 소개합니다. BBF는 값 추정에 사용되는 신경망 확장과 샘플 효율적인 방식으로 이러한 확장을 가능하게 하는 여러 가지 다른 디자인 선택에 의존합니다. 우리는 이러한 디자인 선택에 대한 광범위한 분석을 수행하고 향후 작업에 대한 통찰력을 제공합니다. ALE에서 샘플 효율적인 RL 연구를 위해 골대 업데이트에 대한 논의로 끝납니다. 우리는 코드와 데이터를 이 https URL 에서 공개적으로 사용할 수 있도록 합니다 .
'AI > Google&DeepMind' 카테고리의 다른 글
SQL-PaLM: Text-to-SQL을 위한 개선된 대규모 언어 모델 적응 (0) | 2023.06.02 |
---|---|
브레인포머: 효율성을 위한 거래 단순성 (0) | 2023.06.02 |
PaLI-X: 다국어 비전 및 언어 모델 확장 (0) | 2023.05.31 |
온라인 비확률적 모델 없는 강화학습 (0) | 2023.05.30 |
Q-러닝에 대한 보다 효율적인 대안인 VA-러닝 (0) | 2023.05.30 |