반응형
https://arxiv.org/abs/2307.02486
https://github.com/microsoft/torchscale
1. 대형 언어 모델의 시대에 들어, 시퀀스 길이를 확장하는 것이 중요한 요구사항이 되었습니다. 그러나 기존의 방법들은 계산 복잡성 또는 모델의 표현력에 어려움을 겪어, 최대 시퀀스 길이가 제한되고 있습니다.
2. 이 연구에서는 더 짧은 시퀀스에서의 성능을 희생하지 않고 시퀀스 길이를 10억 토큰 이상까지 확장할 수 있는 Transformer 변형인 LongNet을 소개합니다. 특히 우리는 dilated attention을 제안하는데, 이는 거리가 늘어남에 따라 주의 필드를 지수적으로 확장합니다.
3. LongNet은 다음과 같은 중요한 이점이 있습니다: 1) 선형 계산 복잡도와 토큰 사이의 로그 의존성을 가집니다, 2) 극도로 긴 시퀀스에 대한 분산 훈련기로 활용될 수 있습니다, 3) dilated attention은 표준 attention의 대체품으로, 기존의 Transformer 기반 최적화에 매끄럽게 통합될 수 있습니다. 실험 결과, LongNet은 긴 시퀀스 모델링과 일반적인 언어 작업 모두에서 강력한 성능을 보였습니다. 우리의 연구는 전체 코퍼스나 심지어 인터넷 전체를 시퀀스로 다루는 것과 같은 매우 긴 시퀀스를 모델링하는 새로운 가능성을 제시합니다.
'AI > Microsoft' 카테고리의 다른 글
Supervised Pretraining Can Learn In-Context Reinforcement Learning (0) | 2023.06.27 |
---|---|
Kosmos-2: Grounding Multimodal Large Language Models to the World (0) | 2023.06.27 |