반응형
https://arxiv.org/abs/2305.16960
1. 인공지능 시스템에서의 사회적 조정은 이러한 모델이 확립된 사회적 가치에 따라 행동하도록 보장하는 것을 목표로 합니다. 그러나 현재의 언어 모델(LMs)은 사회적 상호작용을 통해 가치 판단에 대한 합의를 도출하는 인간과는 달리, 고립된 상태에서 교육 코퍼스를 엄격하게 복제하도록 훈련되어, 익숙하지 않은 시나리오에서의 일반화가 부족하고 적대적 공격에 취약합니다.
2. 이 연구에서는 LMs가 시뮬레이션된 사회적 상호작용에서 배울 수 있게 하는 새로운 훈련 패러다임을 제시합니다. 기존의 방법론에 비해, 우리의 접근법은 훨씬 더 확장 가능하고 효율적이며, 조정 벤치마크와 인간 평가에서 더 우수한 성능을 보여줍니다.
3. 이러한 LMs의 훈련에 대한 패러다임 변화는 사회적 규범과 가치를 견고하고 정확하게 반영할 수 있는 AI 시스템 개발에 한 걸음 더 나아가는 것입니다. 우리는 코드, 데이터, 그리고 모델을 http://github.com/agi-templar/Stable-Alignment 에서 공개했습니다.
'AI > Google&DeepMind' 카테고리의 다른 글
무작위 위치 인코딩으로 트랜스포머의 길이 일반화 향상 (0) | 2023.05.29 |
---|---|
생각의 나무(ToT): 대규모 언어 모델을 사용한 고의적 문제 해결 (0) | 2023.05.29 |
도구 제작자로서의 대규모 언어 모델 (0) | 2023.05.29 |
대규모 언어모델을 사용한 역할극 (0) | 2023.05.29 |
Getting ViT in Shape 컴퓨팅 최적화 모델 설계를 위한 확장 법칙 (0) | 2023.05.28 |