반응형
https://arxiv.org/abs/2306.15400
1. 우리는 트랜스포머가 기본 정수 산술을 학습하고, 훈련 중에 본 것보다 더 긴 시퀀스에 일반화하는 두 가지 도전에 어떻게 대응하는지 검토합니다.
2. 상대적 위치 임베딩이 덧셈과 같은 간단한 작업에 대해 길이 일반화를 가능하게 하며, 5자리 숫자로 훈련된 모델들이 15자리의 합을 계산할 수 있음을 발견했습니다. 그러나 이 방법은 곱셈에 실패하며, 우리는 훈련 세트 프라이밍을 제안합니다: 훈련 세트에 몇 개(10~50)의 긴 시퀀스를 추가합니다.
3. 프라이밍이 5자리 x 3자리 곱셈에 훈련된 모델들이 35x3 예시에 일반화하도록 하는 것을 보여줍니다. 또한, 모델들이 다른 일반화 길이에 대해 프라임될 수 있으며, 프라이밍 샘플 크기가 훈련 세트 크기의 로그로 스케일링된다는 것을 보여줍니다. 마지막으로, 산술 이상의 프라이밍의 잠재적인 응용에 대해 논의합니다.
'AI > etc' 카테고리의 다른 글
언어 모델을 사용한 언어 모델의 사회적 추론 이해 (0) | 2023.06.28 |
---|---|
Aidan Gomez 인터뷰 (0) | 2023.06.23 |
명령 예측을 통한 장기적 모방 개선 (0) | 2023.06.23 |
미래의 ML 시스템은 질적으로 다를 것입니다 (0) | 2023.06.21 |
ALP: 인식을 위한 행동 인식 구현 학습 (0) | 2023.06.21 |