https://arxiv.org/abs/2305.19466
설명: https://twitter.com/a_kazemnejad/status/1664277559968927744
1. 작은 훈련 문맥 크기에서 더 큰 크기로 일반화하는 능력인 길이 일반화는 Transformer 기반 언어 모델 개발의 중요한 도전 과제입니다. 위치 인코딩(PE)은 길이 일반화에 큰 영향을 미치는 주요 요소로 확인되었지만, 다른 PE 방식이 하류 작업에서의 외삽에 미치는 정확한 영향은 여전히 불분명합니다.
2. 본 논문에서는 위치 인코딩이 없는 Transformer(NoPE)를 포함하여 절대 위치 임베딩(APE), T5의 상대 PE, ALiBi, 그리고 Rotary 등 다섯 가지 다른 위치 인코딩 방법을 사용하는 디코더 전용 Transformer의 길이 일반화 성능을 비교하는 체계적인 경험적 연구를 수행합니다. 우리의 평가는 이유 설명 및 수학적 작업의 전체를 포괄합니다.
3. 가장 일반적으로 사용되는 위치 인코딩 방법들인 ALiBi, Rotary, 그리고 APE는 하류 작업에서의 길이 일반화에 잘 적합하지 않다는 것을 발견하였습니다. 더 중요한 것은, NoPE가 다른 명시적 위치 인코딩 방법을 능가하면서 추가적인 계산이 필요 없다는 것입니다. 마지막으로, 스크래치패드가 길이 일반화를 해결하는데 항상 도움이 되는 것은 아니며, 그 형식은 모델의 성능에 큰 영향을 미친다는 것을 발견했습니다. 전반적으로, 우리의 연구는 명시적인 위치 임베딩이 디코더 전용 Transformer가 더 긴 시퀀스로 잘 일반화하는데 필수적이지 않다는 것을 제안합니다.
'AI > etc' 카테고리의 다른 글
언어 모델을 사용한 인증된 추론 (0) | 2023.06.08 |
---|---|
OMNI: 인간의 흥미 개념 모델을 통한 개방성 (0) | 2023.06.07 |
생각 복제: 인간의 생각을 모방하여 행동하면서 생각하는 법 배우기 (0) | 2023.06.03 |
인간인가 아닌가? 튜링 테스트에 대한 게임화된 접근 방식 (0) | 2023.06.01 |
데이터 제약이 있는 언어모델 확장 (0) | 2023.06.01 |