AI/etc

데이터 제약이 있는 언어모델 확장

유로파물고기 2023. 6. 1. 12:11
반응형

Chinchilla 스케일링 법칙 확장

 

설명: https://twitter.com/Muennighoff/status/1661895337248686081

 

트위터에서 즐기는 Niklas Muennighoff

“How to keep scaling Large Language Models when data runs out? 🎢 We train 400 models with up to 9B params & 900B tokens to create an extension of Chinchilla scaling laws for repeated data. Results are interesting… 🧐 📜: https://t.co/586bWwvpba

twitter.com

1. 이 연구에서는 데이터 제한 조건에서 언어 모델을 확장하는 것을 조사하며, 이를 위해 데이터 반복 정도와 컴퓨팅 예산을 다양하게 조절하는 대규모 실험을 진행합니다.

 

2. 고정된 컴퓨트 예산과 제한된 데이터에서는 최대 4회 반복 데이터를 사용한 훈련이 유일한 데이터에 비해 손실에 미미한 변화를 준다는 것을 확인하였지만, 더 많은 반복을 하면 컴퓨트 추가의 가치가 결국 0으로 감소합니다.

 

3. 우리는 반복된 토큰과 초과 파라미터의 가치 감소를 고려한 컴퓨트 최적화에 대한 스케일링 법칙을 제안하고 이를 실증적으로 검증하였으며, 또한 코드 데이터를 이용한 훈련 데이터셋 확장이나 일반적으로 사용되는 필터 제거 등 데이터 부족을 완화하는 접근법을 실험하였습니다.

 

 

--

반복되는 토큰 및 초과 매개변수의 감소하는 값을 설명하는 컴퓨팅 최적성을 위한 확장 법칙을 제안하고 경험적으로 검증합니다.