반응형
https://huggingface.co/papers/2305.16843
1. 트랜스포머는 고정된 컨텍스트 길이를 가진 작업에 대해 인상적인 일반화 능력을 보여줍니다. 그러나 문자열을 복제하는 것과 같은 비교적 간단한 작업에 대해서도 임의의 길이의 시퀀스로 일반화하는 데 실패합니다. 또한, 글로벌 어텐션 메커니즘의 제곱 계산 복잡성 때문에 더 긴 시퀀스에 대한 학습은 비효율적입니다.
2. 이번 연구에서는 이러한 실패 모드가 더 긴 시퀀스에 대한 포지셔널 인코딩이 분포 외부에 있는 것과 연관되어 있음을 보여주고, 이 문제를 해결할 수 있는 새로운 포지셔널 인코딩 유형을 소개합니다. 구체적으로, 우리의 무작위 포지셔널 인코딩 체계는 더 긴 시퀀스의 위치를 시뮬레이션하고 순서가 지정된 부분 집합을 무작위로 선택하여 시퀀스의 길이에 맞게 조정합니다.
3. 15개의 알고리즘 추론 작업에 걸쳐 6000개 모델의 대규모 실증 평가 결과, 우리의 방법이 트랜스포머가 보지 못한 길이의 시퀀스로 일반화할 수 있게 해주며(평균적으로 테스트 정확도를 12.0% 향상시킴)를 보여줍니다.
'AI > Google&DeepMind' 카테고리의 다른 글
Three Towers: 사전 훈련된 이미지 모델을 사용한 유연한 대조 학습 (0) | 2023.05.30 |
---|---|
대규모 언어모델을 사용한 전문가 수준의 의료 질문 답변을 향하여 (0) | 2023.05.29 |
생각의 나무(ToT): 대규모 언어 모델을 사용한 고의적 문제 해결 (0) | 2023.05.29 |
시뮬레이션된 인간 사회에서 사회적으로 정렬된 언어 모델 교육 (0) | 2023.05.29 |
도구 제작자로서의 대규모 언어 모델 (0) | 2023.05.29 |