https://arxiv.org/abs/2306.09479
1. 대형 언어 모델(LM)에 대한 연구에서는 모델 크기, 훈련 데이터, 계산량 등이 증가함에 따라 전반적인 손실에 대한 개선이 예측 가능하게 나타나는 스케일링 법칙이 발견되었습니다. 하지만 이 논문에서는 훈련 목표와 데이터의 결함 등으로 인해 스케일 증가와 함께 역 스케일링 현상, 즉, 작업 성능이 저하되는 경우가 있을 수 있다는 주장을 제시하고 있습니다.
2. 우리는 상당한 상금이 걸린 공개 대회인 'Inverse Scaling Prize'를 통해 수집된 11개 데이터셋에서 역 스케일링 현상에 대한 실증적 증거를 제시합니다. 이 데이터셋들과 다른 문헌에서 찾은 예제를 분석하여 역 스케일링의 네 가지 잠재적 원인을 도출했습니다: (i) 컨텍스트 지시사항을 따르는 것보다 기억된 시퀀스를 반복하는 경향, (ii) 훈련 데이터의 바람직하지 않은 패턴을 모방하는 경향, (iii) 실제 작업보다 쉬운 작업에 집중할 수 있는 유혹이 있는 작업, (iv) 정확하지만 오해를 불러일으키는 few-shot 작업 시연.
3. 우리는 이러한 데이터셋을 공개하여 역 스케일링에 대한 추가적인 조사를 가능하게 합니다. 우리의 작업들은 U자형 및 역 U자형 스케일링 경향의 발견을 촉진하였으며, 초기의 추세가 역전되는 경향을 보여주어 스케일링 경향이 이전에 이해되었던 것보다 더 큰 모델의 행동을 예측하는 데 신뢰성이 떨어질 수 있음을 시사합니다. 전반적으로, 우리의 결과는 단지 모델 스케일을 늘리는 것만으로는 진전이 이루어지지 않는 작업들이 있음을 제안하며, 언어 모델을 훈련시키는 데 필요한 데이터와 목표에 대해 더 신중한 고려가 필요함을 시사합니다.
'AI > etc' 카테고리의 다른 글
미래의 ML 시스템은 질적으로 다를 것입니다 (0) | 2023.06.21 |
---|---|
ALP: 인식을 위한 행동 인식 구현 학습 (0) | 2023.06.21 |
눈에 반사된 것을 보고 3D 장면을 재구성 (0) | 2023.06.18 |
언어 모델이 약한 에이전트를 가르칠 수 있습니까? 마음의 이론을 통해 학생들을 향상시키는 교사 설명 (0) | 2023.06.18 |
Mind2Web: 웹용 제너럴리스트 에이전트를 향하여 (1) | 2023.06.18 |