AI/etc

Just Forward 패스로 언어 모델 미세 조정

유로파물고기 2023. 5. 30. 10:49
반응형

 

https://twitter.com/arankomatsuzaki/status/1663360307274690560?s=20

abs: https://arxiv.org/abs/2305.17333

 

Fine-Tuning Language Models with Just Forward Passes

Fine-tuning language models (LMs) has yielded success on diverse downstream tasks, but as LMs grow in size, backpropagation requires a prohibitively large amount of memory. Zeroth-order (ZO) methods can in principle estimate gradients using only two forwar

arxiv.org

github: https://github.com/princeton-nlp/MeZO

 

GitHub - princeton-nlp/MeZO

Contribute to princeton-nlp/MeZO development by creating an account on GitHub.

github.com

1. 언어 모델(LMs)을 세밀하게 튜닝하는 것은 다양한 하위 작업에서 성공을 거두었지만, LMs의 크기가 커짐에 따라 역전파는 엄청난 양의 메모리를 필요로 합니다. 이 연구에서는 기억 효율적인 제로차 최적화기(MeZO)를 제안하여, 고전적인 ZO-SGD 방법을 현장에서 운영할 수 있도록 개선함으로써, 추론과 동일한 메모리 사용량으로 LMs를 세밀하게 튜닝합니다.

 

2. 예를 들어, 단일 A100 80GB GPU를 사용하는 경우, MeZO는 30B 매개변수 모델을 훈련시킬 수 있지만, 역전파를 사용한 세밀 튜닝은 동일한 예산으로 2.7B LM만 훈련시킬 수 있습니다. 우리는 모델 유형(가면과 자동 생성 LMs), 모델 규모(최대 66B), 그리고 하류 작업(분류, 다중 선택, 생성)에 걸친 포괄적인 실험을 실시합니다.

 

3. 우리의 결과는 (1) MeZO가 인텍스트 학습과 선형 탐사를 크게 앞선다는 것을 보여주며, (2) MeZO가 다양한 작업에서 역전파를 사용한 세밀 튜닝과 비교할 수 있는 성능을 보여주고 최대 12배의 메모리 절약을 보여줍니다. (3) MeZO는 LoRA와 접두어 튜닝과 같은 전체 매개변수와 매개변수 효율적인 튜닝 기법과 호환됩니다. (4) MeZO는 비미분 가능 목표(예: 정확도나 F1 최대화)를 효과적으로 최적화할 수 있습니다.