AI/Google&DeepMind

로봇 기술 합성에 대한 보상을 위한 언어

유로파물고기 2023. 6. 18. 22:56
반응형

https://language-to-reward.github.io/

설명: https://twitter.com/xf1280/status/1669765756823941121

 

https://arxiv.org/abs/2306.08647

 

Language to Rewards for Robotic Skill Synthesis

Large language models (LLMs) have demonstrated exciting progress in acquiring diverse new capabilities through in-context learning, ranging from logical reasoning to code-writing. Robotics researchers have also explored using LLMs to advance the capabiliti

arxiv.org

1. 대형 언어 모델(LLM)은 논리적 추론부터 코드 작성에 이르기까지 다양한 새로운 능력을 획득하는 데 있어 놀라운 진전을 보여주었습니다. 로보틱스 연구자들도 로봇 제어 기능을 향상시키기 위해 LLM을 사용하는 것을 탐색하고 있습니다. 그러나 하드웨어에 의존하는 로봇의 저수준 동작들이 LLM 훈련 말뭉치에서 대표성을 잃어버렸기 때문에, 로보틱스에 LLM을 적용하는 기존의 노력들은 대부분 LLM을 의미적 계획자로 취급하거나, 로봇과 인터페이스를 제공하는데 사람이 설계한 제어 기본 동작들에 의존하고 있습니다.

2. 반면에, 보상 함수는 다양한 작업을 수행하기 위해 제어 정책을 최적화할 수 있는 유연한 표현이며, 그들의 의미적 풍부함으로 인해 LLM에 의해 지정될 수 있습니다. 이 연구에서는, 이를 이용하여 LLM을 활용하여 보상 파라미터를 정의하고 다양한 로봇 작업을 수행할 수 있도록 최적화하는 새로운 패러다임을 소개합니다.

3. LLM에 의해 생성된 보상을 중간 인터페이스로 사용함으로써, 고수준 언어 지침이나 수정사항을 저수준 로봇 동작으로 효과적으로 연결할 수 있습니다. 한편, 이를 실시간 최적화 프로그램인 MuJoCo MPC와 결합함으로써, 사용자가 즉시 결과를 확인하고 시스템에 피드백을 제공할 수 있는 대화형 행동 생성 경험을 제공합니다. 우리의 방법론의 성능을 체계적으로 평가하기 위해, 우리는 모사된 사지로봇과 민첩한 조작 로봇을 위한 총 17개의 작업을 설계하였습니다. 우리는 제안한 방법이 설계된 작업의 90%를 안정적으로 해결한다는 것을 보여줍니다.