반응형
https://arxiv.org/abs/2305.14705
1. 이 논문에서는 효율적이고 확장 가능한 방법에 대한 수요 증가에 대응하여, 지시사항-세밀조정된 희소 전문가 혼합(MoE) 모델 세트인 FLAN-MOE를 소개한다.
2. 과업 특화 데이터셋에서 MoE 모델을 순진하게 미세조정하면(즉, 지시사항 미세조정 없이) 동일한 계산 복잡성을 가진 밀집 모델에 비해 성능이 떨어진다는 것을 보여준다. 그러나 FLAN-MOE는 여러 실험 설정에서 밀집 모델을 능가한다: 지시사항 미세조정만 있거나, 지시사항 미세조정 후 과업 특화 미세조정이 있는 경우이다.
3. 이는 MoE 모델에 대해 지시사항 미세조정이 필수적인 단계임을 보여준다. 특히, 우리의 가장 큰 모델인 FLAN-MOE32B는 FLOPs의 세분의 일만을 활용하면서도 네 가지 벤치마크에서 FLAN-PALM62B의 성능을 능가한다. FLAN-MOE의 성공은 과업에 중립적인 학습 설정에서 대규모, 고성능 언어 모델의 설계를 재고하는 데 도움이 된다.
'AI > Google&DeepMind' 카테고리의 다른 글
생각의 나무(ToT): 대규모 언어 모델을 사용한 고의적 문제 해결 (0) | 2023.05.29 |
---|---|
시뮬레이션된 인간 사회에서 사회적으로 정렬된 언어 모델 교육 (0) | 2023.05.29 |
도구 제작자로서의 대규모 언어 모델 (0) | 2023.05.29 |
대규모 언어모델을 사용한 역할극 (0) | 2023.05.29 |
Getting ViT in Shape 컴퓨팅 최적화 모델 설계를 위한 확장 법칙 (0) | 2023.05.28 |