AI/etc

직접적인 선호 최적화: 당신의 언어 모델은 비밀리에 보상 모델입니다

유로파물고기 2023. 5. 30. 10:17
반응형

abs: https://arxiv.org/abs/2305.18290

 

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining s

arxiv.org

설명: https://twitter.com/archit_sharma97/status/1663595372269408261

1. 대규모 비지도 언어 모델(LMs)은 넓은 세계 지식과 일부 추론 능력을 배우지만, 완전히 비지도적인 학습 특성으로 인해 그들의 행동을 정확하게 제어하는 것은 어렵습니다. 이러한 제어성을 얻기 위한 기존 방법은 모델 생성의 상대적인 품질에 대한 인간의 라벨을 수집하고, 이러한 선호도에 따라 비지도 LM을 미세조정하는데, 이 과정에서 종종 인간의 피드백으로부터 강화학습(RLHF)이 사용됩니다.

 

2. 그러나 RLHF는 인간의 선호를 반영하는 보상 모델을 먼저 적합시키고, 그런 다음 이 예상 보상을 최대화하도록 대규모 비지도 LM을 강화학습으로 미세조정하는 복잡하고 종종 불안정한 절차입니다. 이 논문에서는 보상 함수와 최적의 정책 사이의 매핑을 활용하여 이 제한적인 보상 최대화 문제를 인간 선호 데이터에 대한 분류 문제를 본질적으로 해결하는 단일 단계의 정책 훈련으로 정확하게 최적화할 수 있음을 보여줍니다.

 

3. 결과적으로 제안하는 알고리즘인 직접 선호 최적화(DPO)는 안정적이고 성능이 좋으며 계산적으로 가벼워 보상 모델을 적합시키거나, LM에서 미세조정 중에 샘플링을 하거나, 상당한 하이퍼파라미터 조정을 수행할 필요가 없습니다. 우리의 실험은 DPO가 기존 방법과 같거나 더 좋게 LMs을 인간의 선호도와 일치하도록 미세조정할 수 있음을 보여줍니다. 특히, DPO를 사용한 미세조정은 RLHF의 생성물에 대한 감정 제어 능력을 초과하고, 요약 및 단일턴 대화에서 응답 품질을 향상시키며, 구현 및 훈련이 훨씬 단순합니다.