반응형
abs: https://arxiv.org/abs/2305.19476
code: https://sites.google.com/view/rl-vcse
1. 방문한 상태 분포의 엔트로피, 즉 상태 엔트로피를 최대화함으로써 방문한 상태 공간의 균일한 커버리지를 장려하는 것은 탐사에 대한 유망한 기법이다. 이 방법은 비감독 설정에서 효과적이지만, 작업 보상이 있는 감독 설정에서는 에이전트가 작업 보상을 이용하려고 고가치 상태를 방문하는 경향이 있어 문제가 발생한다.
2. 이런 선호도는 고가치 상태와 저가치 상태의 분포 사이의 불균형을 초래하며, 이는 상태 엔트로피가 분포가 더 균일해질 때 증가함으로써 결과적으로 탐색이 저가치 상태 영역으로 편향되게 한다. 특히 고가치 상태가 상태 공간 내에서 좁게 분포되어 있을 경우 이 문제는 더욱 악화되어 에이전트가 작업을 완료하기 어려워진다.
3. 본 논문에서는 가치 조건부 상태 엔트로피를 최대화하는 새로운 탐사 기법을 제시한다. 이 방법은 각 상태의 가치 추정치에 조건부로 상태 엔트로피를 별도로 추정하고, 그 평균을 최대화한다. 우리의 방법은 비슷한 가치 추정치를 가진 방문 상태만을 고려하여 내재적 보너스를 계산함으로써, 저가치 상태의 분포가 고가치 상태 주변의 탐사에 영향을 미치는 것을 방지하고 그 반대의 경우도 마찬가지다.
'AI > etc' 카테고리의 다른 글
인간인가 아닌가? 튜링 테스트에 대한 게임화된 접근 방식 (0) | 2023.06.01 |
---|---|
데이터 제약이 있는 언어모델 확장 (0) | 2023.06.01 |
긴 컨텍스트 대형 모델을 위한 블록별 병렬 트랜스포머 (0) | 2023.06.01 |
LIV: 로봇 제어를 위한 언어-이미지 표현 및 보상 (0) | 2023.05.31 |
사전교육을 받은 트랜스포머의 새로운 모듈화 (0) | 2023.05.31 |