AI/Google&DeepMind

일반 패턴 머신으로서의 대형 언어 모델

유로파물고기 2023. 7. 11. 13:02
반응형

https://arxiv.org/abs/2307.04721

 

Large Language Models as General Pattern Machines

We observe that pre-trained large language models (LLMs) are capable of autoregressively completing complex token sequences -- from arbitrary ones procedurally generated by probabilistic context-free grammars (PCFG), to more rich spatial patterns found in

arxiv.org

https://general-pattern-machines.github.io/

 

Large Language Models as General Pattern Machines

Large Language Models as General Pattern Machines Abstract We observe that pre-trained large language models (LLMs) are capable of autoregressively completing complex token sequences -- from arbitrary ones procedurally generated by probabilistic context-fr

general-pattern-machines.github.io

1. 우리는 사전 훈련된 대형 언어 모델들이 복잡한 토큰 시퀀스를 자동 회귀적으로 완성하는 능력이 있다는 것을 확인하였습니다. 이는 확률적 문맥 자유 문법(PCFG)으로 절차적으로 생성된 임의의 시퀀스부터, 일반 인공지능 벤치마크인 Abstract Reasoning Corpus (ARC)에서 발견된 더 풍부한 공간 패턴에 이르기까지 다양합니다.

 

2. 놀랍게도, 시퀀스가 어휘에서 무작위로 추출된 토큰을 사용하여 표현되더라도 패턴 완성 능력은 부분적으로 유지될 수 있습니다. 이러한 결과는 추가적인 훈련 없이도 LLMs가 문맥 중심 학습에 의해 주도되는 일반적인 시퀀스 모델러로 사용될 수 있음을 제안합니다.


3. 이 연구에서는 이러한 제로샷 능력이 로보틱스 문제에 어떻게 적용될 수 있는지를 조사하였습니다. 단순한 운동을 완성하기 위해 시간에 따른 상태를 나타내는 숫자 시퀀스를 외삽하는 것부터, 보상에 따른 궤적의 최소-최대 프롬팅을 통해 폐루프 정책(예: CartPole의 안정화 컨트롤러)을 발견하고 표현할 수 있습니다. 오늘날 실제 시스템에 배포하기는 지연, 문맥 크기 제한, 계산 비용 등의 문제로 어렵지만, LLM을 사용하여 저수준 제어를 주도하는 접근법은 단어 간 패턴이 어떻게 행동으로 전환될 수 있는지에 대한 흥미로운 통찰을 제공할 수 있습니다.