AI/etc

역 스케일링: 클수록 좋지 않은 경우

유로파물고기 2023. 6. 19. 09:58
반응형

https://arxiv.org/abs/2306.09479

 

Inverse Scaling: When Bigger Isn't Better

Work on scaling laws has found that large language models (LMs) show predictable improvements to overall loss with increased scale (model size, training data, and compute). Here, we present evidence for the claim that LMs may show inverse scaling, or worse

arxiv.org

1. 대형 언어 모델(LM)에 대한 연구에서는 모델 크기, 훈련 데이터, 계산량 등이 증가함에 따라 전반적인 손실에 대한 개선이 예측 가능하게 나타나는 스케일링 법칙이 발견되었습니다. 하지만 이 논문에서는 훈련 목표와 데이터의 결함 등으로 인해 스케일 증가와 함께 역 스케일링 현상, 즉, 작업 성능이 저하되는 경우가 있을 수 있다는 주장을 제시하고 있습니다.

 

2. 우리는 상당한 상금이 걸린 공개 대회인 'Inverse Scaling Prize'를 통해 수집된 11개 데이터셋에서 역 스케일링 현상에 대한 실증적 증거를 제시합니다. 이 데이터셋들과 다른 문헌에서 찾은 예제를 분석하여 역 스케일링의 네 가지 잠재적 원인을 도출했습니다: (i) 컨텍스트 지시사항을 따르는 것보다 기억된 시퀀스를 반복하는 경향, (ii) 훈련 데이터의 바람직하지 않은 패턴을 모방하는 경향, (iii) 실제 작업보다 쉬운 작업에 집중할 수 있는 유혹이 있는 작업, (iv) 정확하지만 오해를 불러일으키는 few-shot 작업 시연.

 

3. 우리는 이러한 데이터셋을 공개하여 역 스케일링에 대한 추가적인 조사를 가능하게 합니다. 우리의 작업들은 U자형 및 역 U자형 스케일링 경향의 발견을 촉진하였으며, 초기의 추세가 역전되는 경향을 보여주어 스케일링 경향이 이전에 이해되었던 것보다 더 큰 모델의 행동을 예측하는 데 신뢰성이 떨어질 수 있음을 시사합니다. 전반적으로, 우리의 결과는 단지 모델 스케일을 늘리는 것만으로는 진전이 이루어지지 않는 작업들이 있음을 제안하며, 언어 모델을 훈련시키는 데 필요한 데이터와 목표에 대해 더 신중한 고려가 필요함을 시사합니다.