Flan-MoE: 전문가가 거의 혼합되지 않은 확장명령 미세조정 언어모델

AI/Google&DeepMind

Flan-MoE: 전문가가 거의 혼합되지 않은 확장명령 미세조정 언어모델

유로파물고기 2023. 5. 28. 21:49

Flan-MoE: Scaling Instruction-Finetuned Language Models with Sparse Mixture of Experts

The explosive growth of language models and their applications have led to an increased demand for efficient and scalable methods. In this paper, we introduce Flan-MoE, a set of Instruction-Finetuned Sparse Mixture-of-Expert (MoE) models. We show that naiv

arxiv.org

1. 이 논문에서는 효율적이고 확장 가능한 방법에 대한 수요 증가에 대응하여, 지시사항-세밀조정된 희소 전문가 혼합(MoE) 모델 세트인 FLAN-MOE를 소개한다.

2. 과업 특화 데이터셋에서 MoE 모델을 순진하게 미세조정하면(즉, 지시사항 미세조정 없이) 동일한 계산 복잡성을 가진 밀집 모델에 비해 성능이 떨어진다는 것을 보여준다. 그러나 FLAN-MOE는 여러 실험 설정에서 밀집 모델을 능가한다: 지시사항 미세조정만 있거나, 지시사항 미세조정 후 과업 특화 미세조정이 있는 경우이다.

3. 이는 MoE 모델에 대해 지시사항 미세조정이 필수적인 단계임을 보여준다. 특히, 우리의 가장 큰 모델인 FLAN-MOE32B는 FLOPs의 세분의 일만을 활용하면서도 네 가지 벤치마크에서 FLAN-PALM62B의 성능을 능가한다. FLAN-MOE의 성공은 과업에 중립적인 학습 설정에서 대규모, 고성능 언어 모델의 설계를 재고하는 데 도움이 된다.

'AI > Google&DeepMind' 카테고리의 다른 글

생각의 나무(ToT): 대규모 언어 모델을 사용한 고의적 문제 해결 (0)	2023.05.29
시뮬레이션된 인간 사회에서 사회적으로 정렬된 언어 모델 교육 (0)	2023.05.29
도구 제작자로서의 대규모 언어 모델 (0)	2023.05.29
대규모 언어모델을 사용한 역할극 (0)	2023.05.29
Getting ViT in Shape 컴퓨팅 최적화 모델 설계를 위한 확장 법칙 (0)	2023.05.28

현재글Flan-MoE: 전문가가 거의 혼합되지 않은 확장명령 미세조정 언어모델

Foundation Models for Robotics,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

SUI