https://twitter.com/arankomatsuzaki/status/1663360307274690560?s=20
abs: https://arxiv.org/abs/2305.17333
github: https://github.com/princeton-nlp/MeZO
1. 언어 모델(LMs)을 세밀하게 튜닝하는 것은 다양한 하위 작업에서 성공을 거두었지만, LMs의 크기가 커짐에 따라 역전파는 엄청난 양의 메모리를 필요로 합니다. 이 연구에서는 기억 효율적인 제로차 최적화기(MeZO)를 제안하여, 고전적인 ZO-SGD 방법을 현장에서 운영할 수 있도록 개선함으로써, 추론과 동일한 메모리 사용량으로 LMs를 세밀하게 튜닝합니다.
2. 예를 들어, 단일 A100 80GB GPU를 사용하는 경우, MeZO는 30B 매개변수 모델을 훈련시킬 수 있지만, 역전파를 사용한 세밀 튜닝은 동일한 예산으로 2.7B LM만 훈련시킬 수 있습니다. 우리는 모델 유형(가면과 자동 생성 LMs), 모델 규모(최대 66B), 그리고 하류 작업(분류, 다중 선택, 생성)에 걸친 포괄적인 실험을 실시합니다.
3. 우리의 결과는 (1) MeZO가 인텍스트 학습과 선형 탐사를 크게 앞선다는 것을 보여주며, (2) MeZO가 다양한 작업에서 역전파를 사용한 세밀 튜닝과 비교할 수 있는 성능을 보여주고 최대 12배의 메모리 절약을 보여줍니다. (3) MeZO는 LoRA와 접두어 튜닝과 같은 전체 매개변수와 매개변수 효율적인 튜닝 기법과 호환됩니다. (4) MeZO는 비미분 가능 목표(예: 정확도나 F1 최대화)를 효과적으로 최적화할 수 있습니다.
'AI > etc' 카테고리의 다른 글
부분적으로 개인화된 연합 학습: 데이터 이질성의 저주 깨기 (0) | 2023.05.30 |
---|---|
네이버가 보는 AGI 는? (0) | 2023.05.30 |
마음의 눈 재구성: fMRI-to-Image with Contrastive Learning 및 Diffusion Priors (0) | 2023.05.30 |
Ghost in the Minecraft: 텍스트 기반 지식 및 메모리를 갖춘 대규모 언어 모델을 통해 일반적으로 오픈 월드 환경에 사용할 수 있는 에이전트 (0) | 2023.05.30 |
임의의 특징을 사용하여 전이하는 자기 지도 강화학습 (0) | 2023.05.30 |