AI/Microsoft

LongNet: 트랜스포머를 1,000,000,000 토큰으로 확장

유로파물고기 2023. 7. 7. 00:33
반응형

https://arxiv.org/abs/2307.02486

 

LongNet: Scaling Transformers to 1,000,000,000 Tokens

Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence length restricted. In this work, we intr

arxiv.org

https://github.com/microsoft/torchscale

 

GitHub - microsoft/torchscale: Transformers at any scale

Transformers at any scale. Contribute to microsoft/torchscale development by creating an account on GitHub.

github.com

1. 대형 언어 모델의 시대에 들어, 시퀀스 길이를 확장하는 것이 중요한 요구사항이 되었습니다. 그러나 기존의 방법들은 계산 복잡성 또는 모델의 표현력에 어려움을 겪어, 최대 시퀀스 길이가 제한되고 있습니다.

 

2. 이 연구에서는 더 짧은 시퀀스에서의 성능을 희생하지 않고 시퀀스 길이를 10억 토큰 이상까지 확장할 수 있는 Transformer 변형인 LongNet을 소개합니다. 특히 우리는 dilated attention을 제안하는데, 이는 거리가 늘어남에 따라 주의 필드를 지수적으로 확장합니다.

 

3. LongNet은 다음과 같은 중요한 이점이 있습니다: 1) 선형 계산 복잡도와 토큰 사이의 로그 의존성을 가집니다, 2) 극도로 긴 시퀀스에 대한 분산 훈련기로 활용될 수 있습니다, 3) dilated attention은 표준 attention의 대체품으로, 기존의 Transformer 기반 최적화에 매끄럽게 통합될 수 있습니다. 실험 결과, LongNet은 긴 시퀀스 모델링과 일반적인 언어 작업 모두에서 강력한 성능을 보였습니다. 우리의 연구는 전체 코퍼스나 심지어 인터넷 전체를 시퀀스로 다루는 것과 같은 매우 긴 시퀀스를 모델링하는 새로운 가능성을 제시합니다.