AI/Google&DeepMind

무작위 위치 인코딩으로 트랜스포머의 길이 일반화 향상

유로파물고기 2023. 5. 29. 16:00
반응형

https://huggingface.co/papers/2305.16843

 

Paper page - Randomized Positional Encodings Boost Length Generalization of Transformers

Anian Ruoss , Grégoire Delétang , Tim Genewein , Jordi Grau-Moya , Róbert Csordás , Mehdi Bennani , Shane Legg , Joel Veness ·published on May 26

huggingface.co

1. 트랜스포머는 고정된 컨텍스트 길이를 가진 작업에 대해 인상적인 일반화 능력을 보여줍니다. 그러나 문자열을 복제하는 것과 같은 비교적 간단한 작업에 대해서도 임의의 길이의 시퀀스로 일반화하는 데 실패합니다. 또한, 글로벌 어텐션 메커니즘의 제곱 계산 복잡성 때문에 더 긴 시퀀스에 대한 학습은 비효율적입니다.

2. 이번 연구에서는 이러한 실패 모드가 더 긴 시퀀스에 대한 포지셔널 인코딩이 분포 외부에 있는 것과 연관되어 있음을 보여주고, 이 문제를 해결할 수 있는 새로운 포지셔널 인코딩 유형을 소개합니다. 구체적으로, 우리의 무작위 포지셔널 인코딩 체계는 더 긴 시퀀스의 위치를 시뮬레이션하고 순서가 지정된 부분 집합을 무작위로 선택하여 시퀀스의 길이에 맞게 조정합니다.

3. 15개의 알고리즘 추론 작업에 걸쳐 6000개 모델의 대규모 실증 평가 결과, 우리의 방법이 트랜스포머가 보지 못한 길이의 시퀀스로 일반화할 수 있게 해주며(평균적으로 테스트 정확도를 12.0% 향상시킴)를 보여줍니다.