AI/Google&DeepMind

π2vec: Policy Representations with Successor Features

유로파물고기 2023. 6. 19. 10:05
반응형

https://arxiv.org/abs/2306.09800

 

$\pi2\text{vec}$: Policy Representations with Successor Features

This paper describes $\pi2\text{vec}$, a method for representing behaviors of black box policies as feature vectors. The policy representations capture how the statistics of foundation model features change in response to the policy behavior in a task agno

arxiv.org

1. 이 논문은 행동의 특징 벡터로 블랙박스 정책을 표현하는 π2vec 방법을 설명합니다. 이 정책 표현은 특정 작업에 의존하지 않는 방식으로, 정책 행동에 대응하여 기초 모델의 특징 통계가 어떻게 변하는지를 잡아냅니다.

 

2. 이러한 정책 표현은 오프라인 데이터로부터 훈련될 수 있어, 리소스 제약 환경에서 효율적인 정책 선택을 가능하게 합니다.

 

3. 이 작업은 오프라인 정책 평가(offline RL의 대응 요소), 일반적이고 강력한 상태 표현으로서의 기초 모델, 그리고 자원 제약 환경에서의 효율적인 정책 선택이라는 세 가지 현대 연구 분야를 결합하기 위한 중요한 요소를 제공합니다.