AI/etc

사전교육을 받은 트랜스포머의 새로운 모듈화

유로파물고기 2023. 5. 31. 11:43
반응형

abs: https://arxiv.org/abs/2305.18390
github: https://github.com/THUNLP/modularity-analysis

 

Emergent Modularity in Pre-trained Transformers

This work examines the presence of modularity in pre-trained Transformers, a feature commonly found in human brains and thought to be vital for general intelligence. In analogy to human brains, we consider two main characteristics of modularity: (1) functi

arxiv.org

1. 이 연구는 사람의 뇌와 일반 지능에 중요하다고 여겨지는 모듈성이라는 특징이 사전 학습된 트랜스포머에 존재하는지를 조사합니다. 사람의 뇌에 비유하여, 우리는 모듈성의 두 가지 주요 특징을 고려합니다: (1) 뉴런의 기능 전문화: 각 뉴런이 특정 기능에 주로 전문화되어 있는지 평가하고, 그 결과는 긍정적입니다. (2) 기능 기반 뉴런 그룹화: 우리는 기능에 따라 뉴런을 모듈로 그룹화하는 구조를 찾는 것을 탐구하며, 각 모듈이 해당 기능을 수행합니다. 가능한 구조의 양이 엄청나게 많기 때문에, 우리는 뉴런을 전문가로 분할하고 일반적으로 다른 입력에 대해 다른 전문가를 활성화하는 Mixture-of-Experts를 유망한 후보로 집중적으로 조사합니다.

2. 실험 결과, 특정 기능에 전문화된 뉴런이 군집화된 기능 전문가가 존재하며, 기능 전문가의 활성화를 방해하면 해당 기능에 상당한 영향을 미친다는 것을 보여줍니다. 마지막으로, 우리는 사전 훈련 동안 모듈성이 어떻게 나타나는지 연구하고, 모듈 구조가 뉴런 안정화보다 빠르게 초기 단계에서 안정화된다는 것을 발견했습니다. 이것은 트랜스포머가 먼저 모듈 구조를 구축한 다음 세밀한 뉴런 기능을 학습한다는 것을 시사합니다.