AI/Nvidia

Optimus 소개: TAMP 감독 시각 운동 트랜스포머

유로파물고기 2023. 5. 29. 00:04
반응형

https://twitter.com/mihdalal/status/1662154852602871820?s=

https://arxiv.org/abs/2305.16309

https://mihdalal.github.io/optimus/

 

트위터에서 즐기는 Murtaza Dalal

“Imitation learning is powerful, but hard to scale due to lack of high quality data. Introducing Optimus: TAMP-supervised visuomotor transformers. Optimus solves over 300 long-horizon manipulation tasks with up to 8 stages and 72 different objects. @NVID

twitter.com

1. 모방 학습은 전문가의 시연을 바탕으로 로봇 조작 정책을 훈련하는 강력한 도구로, 수동 프로그래밍이나 시행착오 없이 학습할 수 있게 합니다. 하지만, 인간 감독과 같은 일반적인 데이터 수집 방법은 시간과 노력이 많이 들어 효율적이지 않습니다.

2. 반면에, 작업 및 움직임 계획(Task and Motion Planning, TAMP)은 다양한 시연의 대규모 데이터셋을 자동으로 생성할 수 있습니다. 이 연구에서는, TAMP 감독자에 의해 생성된 대규모 데이터셋과 유연한 Transformer 모델의 결합이 로봇 조작에 대한 강력한 패러다임임을 보여줍니다.

3. 이를 위해, 우리는 TAMP 에이전트를 모방하여 대규모 시각-운동 Transformer 정책을 훈련시키는 새로운 모사 학습 시스템인 Optimus를 제시합니다. Optimus는 모사 학습을 위해 특별히 맞춤화된 TAMP 데이터를 생성하는 파이프라인을 도입하고, 이를 통해 효과적인 Transformer 기반 정책을 훈련시킬 수 있습니다. Optimus가 70개 이상의 다른 객체로 구성된 다양하고 어려운 시각 기반 조작 작업을 70~80%의 성공률로 해결할 수 있음을 보여줍니다.