AI/Google&DeepMind

딥마인드 자가 개선 로봇 에이전트 RoboCat

유로파물고기 2023. 6. 21. 00:25
반응형

https://www.deepmind.com/blog/robocat-a-self-improving-robotic-agent

 

RoboCat: A self-improving robotic agent

Robots are quickly becoming part of our everyday lives, but they’re often only programmed to perform specific tasks well. While harnessing recent advances in AI could lead to robots that could help in many more ways, progress in building general-purpose

www.deepmind.com

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf

 

DeepMind의 최신 연구 결과로, 로보캣(RoboCat)이라는 새로운 자체 개선형 AI 로봇이 소개되었습니다. 로보캣은 다양한 로봇 팔을 조작하고 다양한 작업을 수행하며, 이를 통해 자체적으로 학습 데이터를 생성하고 기술을 개선합니다.

로보캣은 기존의 최첨단 모델보다 훨씬 빠르게 학습하며, 크고 다양한 데이터셋에서 정보를 추출해 최소 100회의 시연만으로 새로운 작업을 습득할 수 있습니다. 이러한 능력은 인간이 감독하는 훈련에 대한 필요성을 줄이며, 범용 로봇 생성을 향한 중요한 한 걸음이 됩니다​.

로보캣이 자신을 개선하는 방법은 몇 가지 단계로 이루어집니다. 이 중 첫 단계는 새로운 작업이나 로봇에 대한 100-1000회의 시연을 수집하는 것이며, 이후에 로보캣은 이 새로운 작업/팔에 대해 세밀하게 조정되어 특화된 에이전트를 만듭니다. 특화된 에이전트는 이 새로운 작업/팔에 대해 평균 10,000회의 연습을 수행하며 추가적인 훈련 데이터를 생성합니다. 그리고 이 데이터는 기존의 로보캣 훈련 데이터셋에 통합되어, 새로운 훈련 데이터셋에서 새로운 로보캣 버전이 훈련됩니다​.

로보캣의 훈련은 실제 및 시뮬레이션 로봇 팔로부터 수집된 수백만 건의 경로 데이터를 바탕으로 합니다. 이 데이터는 로보캣이 수행할 작업을 대표하는 시각 기반 데이터로, 로보캣을 훈련시키는 데 사용되었습니다​.

로보캣은 다양한 훈련을 통해 몇 시간 안에 다른 로봇 팔을 조작하는 방법을 배웠습니다. 또한, 더 복잡한 작업을 수행하는 능력도 향상시켰습니다. 예를 들어, 과일을 정확하게 선택하거나 모양 맞추기 퍼즐을 해결하는 등의 작업을 수행하였습니다.

추가로, 로보캣은 '자체 개선형 일반화' 모델로, 새로운 작업을 배울수록 추가적인 새로운 작업 학습에 더욱 효과적이게 됩니다. 로보캣의 초기 버전은 약 500회의 시연을 통해 이전에 보지 못했던 작업에 대해 36%의 성공률을 보였습니다. 그러나 더 다양한 작업에 대해 훈련을 받은 최신 로보캣은 이 성공률을 두 배 이상으로 늘렸습니다.

이러한 개선은 로보캣이 경험의 폭을 넓히면서 이루어졌으며, 이는 사람이 특정 분야에서 학습을 깊게 할수록 다양한 기술을 개발하는 것과 유사합니다. 로보캣의 독립적인 기술 학습 및 빠른 자기 개선 능력, 특히 다양한 로봇 기기에 적용될 때, 이는 더 유용하고 일반적인 로봇 에이전트를 위한 새로운 세대를 이끌어낼 것입니다.