AI/OpenAI

OpenAI 프로세스 감독을 통한 수학적 추론 개선

유로파물고기 2023. 6. 1. 05:39
반응형
최근 몇 년 동안 대규모 언어 모델은 복잡한 다단계 추론 수행 능력에서 크게 향상되었습니다. 그러나 최첨단 모델들조차 종종 '환각'이라고 불리는 논리적 오류를 만들어냅니다. 이러한 환각을 완화하는 것은 AGI(인공 일반 지능)를 구축하는 데 있어 중요한 단계입니다. 
우리는 결과 감독법(최종 결과에 대한 피드백 제공) 또는 과정 감독법(사고의 연쇄에서 각 단계에 대한 피드백 제공)을 사용하여 환각을 감지하는 보상 모델을 훈련시킬 수 있습니다. 이전 연구에 이어, 우리는 MATH 데이터셋을 실험대로 사용하여 이 두 방법을 자세히 비교하였습니다. 우리의 발견은 과정 감독법이 결과에 의해 판단될 때조차 훨씬 더 좋은 성능을 보인다는 것입니다. 이와 관련된 연구를 장려하기 위해, 우리는 과정 감독법에 대한 전체 데이터셋을 공개합니다.

'AI > OpenAI' 카테고리의 다른 글

Sam Altman에 따른 OpenAI의 계획  (0) 2023.06.01
샘 알트만의 모든 것에 대한 무어의 법칙  (0) 2023.05.28
GPT-5는 AGI 일까  (0) 2023.05.28
초지능의 거버넌스  (0) 2023.05.28