AI/etc

LIV: 로봇 제어를 위한 언어-이미지 표현 및 보상

유로파물고기 2023. 5. 31. 15:57
반응형

https://penn-pal-lab.github.io/LIV/

 

LIV

LIV as Representation for Language-Conditioned BC We use LIV's frozen multi-modal representation as backbone for LCBC and achieve impressive performance (46% success rate, absolute ~30% better than the second best baseline) on a challenging real-world muli

penn-pal-lab.github.io

설명: https://twitter.com/JasonMa2020/status/1663618652778942464

 

트위터에서 즐기는 Jason Ma

“Super excited to see how RL-based pre-training can further accelerate progress in robotics and beyond! If interested, also check out our initial work VIP(https://t.co/IeHgTvMEWy) that kicked-off this line of work!”

twitter.com

 

1. 우리는 액션 없는 비디오에 텍스트 주석이 있는 시각-언어 표현과 보상 학습을 위한 통합된 목표인 Language-Image Value learning (LIV)을 제시합니다. 이중 강화 학습과 상호 정보 대조 학습 사이의 새로운 연결을 활용하여, LIV는 목표를 모든 모달에서 표현할 수 있는 목표-조건의 가치 함수를 암시적으로 인코딩하는 멀티 모달 표현을 학습하는 간단하고 효과적인 목표를 제안합니다.

 

2. 우리는 LIV를 사용하여 EpicKitchen과 같은 큰 인간 비디오 데이터셋에서 액션 정보 없이 첫 번째 제어 중심의 시각-언어 표현을 사전 학습합니다. 이렇게 사전 학습된 LIV 모델은 본 적 없는 인간과 로봇 비디오 모두에서 제로샷 언어-조건의 보상 사양을 수행할 수 있습니다.

 

3. 대상 도메인 데이터에 접근할 수 있으면, 동일한 목표가 이 사전 훈련된 LIV 모델 뿐만 아니라 다른 기존 시각-언어 표현을 개선하여 언어-조건의 보상 사양과 로봇 제어를 개선합니다. 시각-언어 표현과 보상을 평가하는 두 가지 시뮬레이션과 하나의 실제 로봇 환경에서, LIV의 사전 훈련과 세부 튜닝 모델은 일관되게 최고의 이전 접근법을 능가하여, 그 통합된, 간결한 프레임워크 내에서 시각-언어 표현과 보상 학습의 결합의 이점을 입증합니다.