AI/Google&DeepMind

Flan-MoE: 전문가가 거의 혼합되지 않은 확장명령 미세조정 언어모델

유로파물고기 2023. 5. 28. 21:49
반응형

 

https://arxiv.org/abs/2305.14705

 

Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse Mixture of Experts

The explosive growth of language models and their applications have led to an increased demand for efficient and scalable methods. In this paper, we introduce Flan-MoE, a set of Instruction-Finetuned Sparse Mixture-of-Expert (MoE) models. We show that naiv

arxiv.org

1. 이 논문에서는 효율적이고 확장 가능한 방법에 대한 수요 증가에 대응하여, 지시사항-세밀조정된 희소 전문가 혼합(MoE) 모델 세트인 FLAN-MOE를 소개한다.

 

2. 과업 특화 데이터셋에서 MoE 모델을 순진하게 미세조정하면(즉, 지시사항 미세조정 없이) 동일한 계산 복잡성을 가진 밀집 모델에 비해 성능이 떨어진다는 것을 보여준다. 그러나 FLAN-MOE는 여러 실험 설정에서 밀집 모델을 능가한다: 지시사항 미세조정만 있거나, 지시사항 미세조정 후 과업 특화 미세조정이 있는 경우이다.

 

3. 이는 MoE 모델에 대해 지시사항 미세조정이 필수적인 단계임을 보여준다. 특히, 우리의 가장 큰 모델인 FLAN-MOE32B는 FLOPs의 세분의 일만을 활용하면서도 네 가지 벤치마크에서 FLAN-PALM62B의 성능을 능가한다. FLAN-MOE의 성공은 과업에 중립적인 학습 설정에서 대규모, 고성능 언어 모델의 설계를 재고하는 데 도움이 된다.