π2vec: Policy Representations with Successor Features

AI/Google&DeepMind

π2vec: Policy Representations with Successor Features

유로파물고기 2023. 6. 19. 10:05

$\pi2\text{vec}$: Policy Representations with Successor Features

This paper describes $\pi2\text{vec}$, a method for representing behaviors of black box policies as feature vectors. The policy representations capture how the statistics of foundation model features change in response to the policy behavior in a task agno

arxiv.org

1. 이 논문은 행동의 특징 벡터로 블랙박스 정책을 표현하는 π2vec 방법을 설명합니다. 이 정책 표현은 특정 작업에 의존하지 않는 방식으로, 정책 행동에 대응하여 기초 모델의 특징 통계가 어떻게 변하는지를 잡아냅니다.

2. 이러한 정책 표현은 오프라인 데이터로부터 훈련될 수 있어, 리소스 제약 환경에서 효율적인 정책 선택을 가능하게 합니다.

3. 이 작업은 오프라인 정책 평가(offline RL의 대응 요소), 일반적이고 강력한 상태 표현으로서의 기초 모델, 그리고 자원 제약 환경에서의 효율적인 정책 선택이라는 세 가지 현대 연구 분야를 결합하기 위한 중요한 요소를 제공합니다.

'AI > Google&DeepMind' 카테고리의 다른 글

대화형 AI 안전의 교차성: 베이지안 다단계 모델이 안전에 대한 다양한 인식을 이해하는 데 도움이 되는 방법 (0)	2023.06.21
딥마인드 자가 개선 로봇 에이전트 RoboCat (0)	2023.06.21
Block-State Transformer (0)	2023.06.19
로봇 기술 합성에 대한 보상을 위한 언어 (0)	2023.06.18
이미지 캡셔너는 확장 가능한 비전 학습자이기도 합니다. (0)	2023.06.14

현재글π2vec: Policy Representations with Successor Features

Foundation Models for Robotics,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

SUI