AI/Google&DeepMind

시뮬레이션된 인간 사회에서 사회적으로 정렬된 언어 모델 교육

유로파물고기 2023. 5. 29. 11:04
반응형

 

https://arxiv.org/abs/2305.16960

 

Training Socially Aligned Language Models in Simulated Human Society

Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidl

arxiv.org

1. 인공지능 시스템에서의 사회적 조정은 이러한 모델이 확립된 사회적 가치에 따라 행동하도록 보장하는 것을 목표로 합니다. 그러나 현재의 언어 모델(LMs)은 사회적 상호작용을 통해 가치 판단에 대한 합의를 도출하는 인간과는 달리, 고립된 상태에서 교육 코퍼스를 엄격하게 복제하도록 훈련되어, 익숙하지 않은 시나리오에서의 일반화가 부족하고 적대적 공격에 취약합니다.

2. 이 연구에서는 LMs가 시뮬레이션된 사회적 상호작용에서 배울 수 있게 하는 새로운 훈련 패러다임을 제시합니다. 기존의 방법론에 비해, 우리의 접근법은 훨씬 더 확장 가능하고 효율적이며, 조정 벤치마크와 인간 평가에서 더 우수한 성능을 보여줍니다.

3. 이러한 LMs의 훈련에 대한 패러다임 변화는 사회적 규범과 가치를 견고하고 정확하게 반영할 수 있는 AI 시스템 개발에 한 걸음 더 나아가는 것입니다. 우리는 코드, 데이터, 그리고 모델을 http://github.com/agi-templar/Stable-Alignment 에서 공개했습니다.