AI/Google&DeepMind

Focused Transformer: 컨텍스트 스케일링을 위한 대조 훈련

유로파물고기 2023. 7. 7. 09:48
반응형

https://arxiv.org/abs/2307.03170

 

 

Focused Transformer: Contrastive Training for Context Scaling

Large language models have an exceptional capability to incorporate new information in a contextual manner. However, the full potential of such an approach is often restrained due to a limitation in the effective context length. One solution to this issue

arxiv.org

1. 대형 언어 모델은 새로운 정보를 문맥에 맞게 통합하는 뛰어난 능력을 가지고 있지만, 효과적인 문맥 길이의 제한으로 인해 이러한 접근법의 전체 잠재력은 종종 제약을 받습니다. 이 문제를 해결하기 위한 한 가지 방법은 외부 메모리에 접근할 수 있는 attention 계층을 부여하는 것인데, 이 메모리는 (키, 값) 쌍으로 구성됩니다.

 

2. 그러나 문서 수가 증가하면 관련 있는 키 대비 관련 없는 키의 비율이 감소하여 모델이 관련 없는 키에 더 집중하게 됩니다. 우리는 이를 '분산 문제'라고 부르는 중요한 도전 과제를 확인하였는데, 여기서는 다른 의미를 가진 값에 연결된 키들이 겹치게 되어 구분하기 어렵게 됩니다.

 

3. 이 문제를 해결하기 위해, 우리는 대조 학습에서 영감을 받은 학습 과정을 사용하는 Focused Transformer (FoT)라는 기법을 도입합니다. 이 새로운 접근법은 (키, 값) 공간의 구조를 개선하여 문맥 길이를 확장하게 합니다. 이 방법은 기존의 대규모 모델을 미세 조정하여 효과적인 문맥을 길게 하는 데 사용할 수 있으며, 이는 우리가 미세 조정한 3B와 7B OpenLLaMA 체크포인트를 통해 보여집니다. 결과적으로 생성된 모델인 LongLLaMA는 긴 문맥이 필요한 작업에서 진보를 보여줍니다. 또한, 우리는 LongLLaMA 모델이 256k 문맥 길이에 대한 패스키 검색을 능숙하게 관리하는 것을 보여줍니다.