AI/etc

트랜스포머의 길이 일반화에 대한 위치 인코딩의 영향

유로파물고기 2023. 6. 3. 23:57
반응형

https://arxiv.org/abs/2305.19466

 

The Impact of Positional Encoding on Length Generalization in Transformers

Length generalization, the ability to generalize from small training context sizes to larger ones, is a critical challenge in the development of Transformer-based language models. Positional encoding (PE) has been identified as a major factor influencing l

arxiv.org

설명: https://twitter.com/a_kazemnejad/status/1664277559968927744

 

트위터에서 즐기는 Amirhossein Kazemnejad

“🚨Stop using positional encoding (PE) in Transformer decoders (e.g. GPTs). Our work shows 𝗡𝗼𝗣𝗘 (no positional encoding) outperforms all variants like absolute, relative, ALiBi, Rotary. A decoder can learn PE in its representation (see proo

twitter.com

1. 작은 훈련 문맥 크기에서 더 큰 크기로 일반화하는 능력인 길이 일반화는 Transformer 기반 언어 모델 개발의 중요한 도전 과제입니다. 위치 인코딩(PE)은 길이 일반화에 큰 영향을 미치는 주요 요소로 확인되었지만, 다른 PE 방식이 하류 작업에서의 외삽에 미치는 정확한 영향은 여전히 불분명합니다.

 

2. 본 논문에서는 위치 인코딩이 없는 Transformer(NoPE)를 포함하여 절대 위치 임베딩(APE), T5의 상대 PE, ALiBi, 그리고 Rotary 등 다섯 가지 다른 위치 인코딩 방법을 사용하는 디코더 전용 Transformer의 길이 일반화 성능을 비교하는 체계적인 경험적 연구를 수행합니다. 우리의 평가는 이유 설명 및 수학적 작업의 전체를 포괄합니다.

 

3. 가장 일반적으로 사용되는 위치 인코딩 방법들인 ALiBi, Rotary, 그리고 APE는 하류 작업에서의 길이 일반화에 잘 적합하지 않다는 것을 발견하였습니다. 더 중요한 것은, NoPE가 다른 명시적 위치 인코딩 방법을 능가하면서 추가적인 계산이 필요 없다는 것입니다. 마지막으로, 스크래치패드가 길이 일반화를 해결하는데 항상 도움이 되는 것은 아니며, 그 형식은 모델의 성능에 큰 영향을 미친다는 것을 발견했습니다. 전반적으로, 우리의 연구는 명시적인 위치 임베딩이 디코더 전용 Transformer가 더 긴 시퀀스로 잘 일반화하는데 필수적이지 않다는 것을 제안합니다.