AI/Google&DeepMind

브레인포머: 효율성을 위한 거래 단순성

유로파물고기 2023. 6. 2. 09:44
반응형

abs: https://arxiv.org/abs/2306.00008

 

Brainformers: Trading Simplicity for Efficiency

Transformers are central to recent successes in natural language processing and computer vision. Transformers have a mostly uniform backbone where layers alternate between feed-forward and self-attention in order to build a deep network. Here we investigat

arxiv.org

1. 트랜스포머는 자연어 처리와 컴퓨터 비전의 최근 성공에 중심 역할을 하는데, 이는 대부분 깊은 네트워크를 구축하기 위해 피드-포워드와 셀프-어텐션 사이를 교대로 사용하는 균일한 백본을 가지고 있다. 본 연구에서는 이러한 설계 선택을 조사하고, 레이어 기본 요소의 다른 순열을 가진 더 복잡한 블록이 더 효율적일 수 있다는 것을 발견하였다.

 

2. 이러한 통찰력을 바탕으로, 우리는 희소 게이트 피드-포워드 레이어, 밀집 피드-포워드 레이어, 어텐션 레이어, 그리고 다양한 형태의 레이어 정규화와 활성화 함수와 같은 다양한 레이어 세트로 구성된 복잡한 블록인 '브레인포머(Brainformer)'를 개발하였다.

 

3. 브레인포머는 품질과 효율성 면에서 최첨단의 밀집 및 희소 트랜스포머를 일관되게 능가한다. 토큰 당 80억 개의 활성화된 매개변수를 가진 브레인포머 모델은 GLaM에 비해 학습 수렴이 2배 빠르며, 스텝 시간은 5배 빠르다. 하류 작업 평가에서는, 브레인포머가 비슷한 수의 활성화된 매개변수를 가진 GLaM에 비해 미세 조정으로 SuperGLUE 점수가 3% 더 높다. 마지막으로, 브레인포머는 토큰 당 비슷한 계산을 가진 NAS로 파생된 Primer 밀집 모델을 훨씬 능가한다.