AI/etc

산술 트랜스포머의 길이 일반화

유로파물고기 2023. 6. 28. 09:59
반응형

https://arxiv.org/abs/2306.15400

 

Length Generalization in Arithmetic Transformers

We examine how transformers cope with two challenges: learning basic integer arithmetic, and generalizing to longer sequences than seen during training. We find that relative position embeddings enable length generalization for simple tasks, such as additi

arxiv.org

 

1. 우리는 트랜스포머가 기본 정수 산술을 학습하고, 훈련 중에 본 것보다 더 긴 시퀀스에 일반화하는 두 가지 도전에 어떻게 대응하는지 검토합니다.

 

2. 상대적 위치 임베딩이 덧셈과 같은 간단한 작업에 대해 길이 일반화를 가능하게 하며, 5자리 숫자로 훈련된 모델들이 15자리의 합을 계산할 수 있음을 발견했습니다. 그러나 이 방법은 곱셈에 실패하며, 우리는 훈련 세트 프라이밍을 제안합니다: 훈련 세트에 몇 개(10~50)의 긴 시퀀스를 추가합니다.

 

3. 프라이밍이 5자리 x 3자리 곱셈에 훈련된 모델들이 35x3 예시에 일반화하도록 하는 것을 보여줍니다. 또한, 모델들이 다른 일반화 길이에 대해 프라임될 수 있으며, 프라이밍 샘플 크기가 훈련 세트 크기의 로그로 스케일링된다는 것을 보여줍니다. 마지막으로, 산술 이상의 프라이밍의 잠재적인 응용에 대해 논의합니다.