트랜스포머의 길이 일반화에 대한 위치 인코딩의 영향

AI/etc

트랜스포머의 길이 일반화에 대한 위치 인코딩의 영향

유로파물고기 2023. 6. 3. 23:57

https://arxiv.org/abs/2305.19466

The Impact of Positional Encoding on Length Generalization in Transformers

Length generalization, the ability to generalize from small training context sizes to larger ones, is a critical challenge in the development of Transformer-based language models. Positional encoding (PE) has been identified as a major factor influencing l

arxiv.org

설명: https://twitter.com/a_kazemnejad/status/1664277559968927744

트위터에서 즐기는 Amirhossein Kazemnejad

“🚨Stop using positional encoding (PE) in Transformer decoders (e.g. GPTs). Our work shows 𝗡𝗼𝗣𝗘 (no positional encoding) outperforms all variants like absolute, relative, ALiBi, Rotary. A decoder can learn PE in its representation (see proo

twitter.com

1. 작은 훈련 문맥 크기에서 더 큰 크기로 일반화하는 능력인 길이 일반화는 Transformer 기반 언어 모델 개발의 중요한 도전 과제입니다. 위치 인코딩(PE)은 길이 일반화에 큰 영향을 미치는 주요 요소로 확인되었지만, 다른 PE 방식이 하류 작업에서의 외삽에 미치는 정확한 영향은 여전히 불분명합니다.

2. 본 논문에서는 위치 인코딩이 없는 Transformer(NoPE)를 포함하여 절대 위치 임베딩(APE), T5의 상대 PE, ALiBi, 그리고 Rotary 등 다섯 가지 다른 위치 인코딩 방법을 사용하는 디코더 전용 Transformer의 길이 일반화 성능을 비교하는 체계적인 경험적 연구를 수행합니다. 우리의 평가는 이유 설명 및 수학적 작업의 전체를 포괄합니다.

3. 가장 일반적으로 사용되는 위치 인코딩 방법들인 ALiBi, Rotary, 그리고 APE는 하류 작업에서의 길이 일반화에 잘 적합하지 않다는 것을 발견하였습니다. 더 중요한 것은, NoPE가 다른 명시적 위치 인코딩 방법을 능가하면서 추가적인 계산이 필요 없다는 것입니다. 마지막으로, 스크래치패드가 길이 일반화를 해결하는데 항상 도움이 되는 것은 아니며, 그 형식은 모델의 성능에 큰 영향을 미친다는 것을 발견했습니다. 전반적으로, 우리의 연구는 명시적인 위치 임베딩이 디코더 전용 Transformer가 더 긴 시퀀스로 잘 일반화하는데 필수적이지 않다는 것을 제안합니다.

'AI > etc' 카테고리의 다른 글

언어 모델을 사용한 인증된 추론 (0)	2023.06.08
OMNI: 인간의 흥미 개념 모델을 통한 개방성 (0)	2023.06.07
생각 복제: 인간의 생각을 모방하여 행동하면서 생각하는 법 배우기 (0)	2023.06.03
인간인가 아닌가? 튜링 테스트에 대한 게임화된 접근 방식 (0)	2023.06.01
데이터 제약이 있는 언어모델 확장 (0)	2023.06.01

현재글트랜스포머의 길이 일반화에 대한 위치 인코딩의 영향

Foundation Models for Robotics,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

SUI