OpenAI 프로세스 감독을 통한 수학적 추론 개선

AI/OpenAI

OpenAI 프로세스 감독을 통한 수학적 추론 개선

유로파물고기 2023. 6. 1. 05:39

최근 몇 년 동안 대규모 언어 모델은 복잡한 다단계 추론 수행 능력에서 크게 향상되었습니다. 그러나 최첨단 모델들조차 종종 '환각'이라고 불리는 논리적 오류를 만들어냅니다. 이러한 환각을 완화하는 것은 AGI(인공 일반 지능)를 구축하는 데 있어 중요한 단계입니다.

우리는 결과 감독법(최종 결과에 대한 피드백 제공) 또는 과정 감독법(사고의 연쇄에서 각 단계에 대한 피드백 제공)을 사용하여 환각을 감지하는 보상 모델을 훈련시킬 수 있습니다. 이전 연구에 이어, 우리는 MATH 데이터셋을 실험대로 사용하여 이 두 방법을 자세히 비교하였습니다. 우리의 발견은 과정 감독법이 결과에 의해 판단될 때조차 훨씬 더 좋은 성능을 보인다는 것입니다. 이와 관련된 연구를 장려하기 위해, 우리는 과정 감독법에 대한 전체 데이터셋을 공개합니다.

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

Improving Mathematical Reasoning with Process Supervision

We've trained a model to achieve a new state-of-the-art in mathematical problem solving by rewarding each correct step of reasoning (“process supervision”) instead of simply rewarding the correct final answer (“outcome supervision”). In addition to

openai.com

'AI > OpenAI' 카테고리의 다른 글

Sam Altman에 따른 OpenAI의 계획 (0)	2023.06.01
샘 알트만의 모든 것에 대한 무어의 법칙 (0)	2023.05.28
GPT-5는 AGI 일까 (0)	2023.05.28
초지능의 거버넌스 (0)	2023.05.28

현재글OpenAI 프로세스 감독을 통한 수학적 추론 개선

Foundation Models for Robotics,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

SUI