반응형
https://arxiv.org/abs/2307.03170
1. 대형 언어 모델은 새로운 정보를 문맥에 맞게 통합하는 뛰어난 능력을 가지고 있지만, 효과적인 문맥 길이의 제한으로 인해 이러한 접근법의 전체 잠재력은 종종 제약을 받습니다. 이 문제를 해결하기 위한 한 가지 방법은 외부 메모리에 접근할 수 있는 attention 계층을 부여하는 것인데, 이 메모리는 (키, 값) 쌍으로 구성됩니다.
2. 그러나 문서 수가 증가하면 관련 있는 키 대비 관련 없는 키의 비율이 감소하여 모델이 관련 없는 키에 더 집중하게 됩니다. 우리는 이를 '분산 문제'라고 부르는 중요한 도전 과제를 확인하였는데, 여기서는 다른 의미를 가진 값에 연결된 키들이 겹치게 되어 구분하기 어렵게 됩니다.
3. 이 문제를 해결하기 위해, 우리는 대조 학습에서 영감을 받은 학습 과정을 사용하는 Focused Transformer (FoT)라는 기법을 도입합니다. 이 새로운 접근법은 (키, 값) 공간의 구조를 개선하여 문맥 길이를 확장하게 합니다. 이 방법은 기존의 대규모 모델을 미세 조정하여 효과적인 문맥을 길게 하는 데 사용할 수 있으며, 이는 우리가 미세 조정한 3B와 7B OpenLLaMA 체크포인트를 통해 보여집니다. 결과적으로 생성된 모델인 LongLLaMA는 긴 문맥이 필요한 작업에서 진보를 보여줍니다. 또한, 우리는 LongLLaMA 모델이 256k 문맥 길이에 대한 패스키 검색을 능숙하게 관리하는 것을 보여줍니다.
'AI > Google&DeepMind' 카테고리의 다른 글
Patch n' Pack: NaViT, 모든 종횡비 및 해상도를 위한 비전 트랜스포머 (0) | 2023.07.13 |
---|---|
일반 패턴 머신으로서의 대형 언어 모델 (0) | 2023.07.11 |
Learning to Modulate pre-trained Models in RL (0) | 2023.06.27 |
AudioPaLM: 말하고 들을 수 있는 대형 언어 모델 (0) | 2023.06.23 |
대화형 AI 안전의 교차성: 베이지안 다단계 모델이 안전에 대한 다양한 인식을 이해하는 데 도움이 되는 방법 (0) | 2023.06.21 |