AI/etc

가치-조건부 상태 엔트로피 탐색을 통한 강화학습 가속화

유로파물고기 2023. 6. 1. 10:00
반응형

abs: https://arxiv.org/abs/2305.19476

 

Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration

A promising technique for exploration is to maximize the entropy of visited state distribution, i.e., state entropy, by encouraging uniform coverage of visited state space. While it has been effective for an unsupervised setup, it tends to struggle in a su

arxiv.org

code: https://sites.google.com/view/rl-vcse

 

로그인 - Google 계정

이메일 또는 휴대전화

accounts.google.com

1. 방문한 상태 분포의 엔트로피, 즉 상태 엔트로피를 최대화함으로써 방문한 상태 공간의 균일한 커버리지를 장려하는 것은 탐사에 대한 유망한 기법이다. 이 방법은 비감독 설정에서 효과적이지만, 작업 보상이 있는 감독 설정에서는 에이전트가 작업 보상을 이용하려고 고가치 상태를 방문하는 경향이 있어 문제가 발생한다.

 

2. 이런 선호도는 고가치 상태와 저가치 상태의 분포 사이의 불균형을 초래하며, 이는 상태 엔트로피가 분포가 더 균일해질 때 증가함으로써 결과적으로 탐색이 저가치 상태 영역으로 편향되게 한다. 특히 고가치 상태가 상태 공간 내에서 좁게 분포되어 있을 경우 이 문제는 더욱 악화되어 에이전트가 작업을 완료하기 어려워진다.

 

3. 본 논문에서는 가치 조건부 상태 엔트로피를 최대화하는 새로운 탐사 기법을 제시한다. 이 방법은 각 상태의 가치 추정치에 조건부로 상태 엔트로피를 별도로 추정하고, 그 평균을 최대화한다. 우리의 방법은 비슷한 가치 추정치를 가진 방문 상태만을 고려하여 내재적 보너스를 계산함으로써, 저가치 상태의 분포가 고가치 상태 주변의 탐사에 영향을 미치는 것을 방지하고 그 반대의 경우도 마찬가지다.