반응형
https://arxiv.org/abs/2306.09800
1. 이 논문은 행동의 특징 벡터로 블랙박스 정책을 표현하는 π2vec 방법을 설명합니다. 이 정책 표현은 특정 작업에 의존하지 않는 방식으로, 정책 행동에 대응하여 기초 모델의 특징 통계가 어떻게 변하는지를 잡아냅니다.
2. 이러한 정책 표현은 오프라인 데이터로부터 훈련될 수 있어, 리소스 제약 환경에서 효율적인 정책 선택을 가능하게 합니다.
3. 이 작업은 오프라인 정책 평가(offline RL의 대응 요소), 일반적이고 강력한 상태 표현으로서의 기초 모델, 그리고 자원 제약 환경에서의 효율적인 정책 선택이라는 세 가지 현대 연구 분야를 결합하기 위한 중요한 요소를 제공합니다.
'AI > Google&DeepMind' 카테고리의 다른 글
대화형 AI 안전의 교차성: 베이지안 다단계 모델이 안전에 대한 다양한 인식을 이해하는 데 도움이 되는 방법 (0) | 2023.06.21 |
---|---|
딥마인드 자가 개선 로봇 에이전트 RoboCat (0) | 2023.06.21 |
Block-State Transformer (0) | 2023.06.19 |
로봇 기술 합성에 대한 보상을 위한 언어 (0) | 2023.06.18 |
이미지 캡셔너는 확장 가능한 비전 학습자이기도 합니다. (0) | 2023.06.14 |