AI/etc

언어 모델을 사용한 언어 모델의 사회적 추론 이해

유로파물고기 2023. 6. 28. 10:06
반응형

https://arxiv.org/abs/2306.15448

 

Understanding Social Reasoning in Language Models with Language Models

As Large Language Models (LLMs) become increasingly integrated into our everyday lives, understanding their ability to comprehend human mental states becomes critical for ensuring effective interactions. However, despite the recent attempts to assess the T

arxiv.org

1. 대형 언어 모델(LLM)이 우리 일상에 점점 더 통합됨에 따라, 인간의 정신 상태를 이해하는 그들의 능력을 이해하는 것은 효과적인 상호작용을 보장하기 위해 중요해집니다. 그러나 이러한 모델이 인간의 이론적 사고(Theory-of-Mind, ToM)와 얼마나 일치할 수 있는지는 아직 복잡한 탐구 주제입니다.

 

2. 이는 주로 두 가지 도전 때문인데, (1) 이전 평가에서 불일치한 결과가 나타난 것과 (2) 기존 평가 방법론의 유효성에 대한 우려 때문입니다. 이러한 도전을 해결하기 위해, 우리는 원인 템플릿을 채우는 방식으로 LLMs와 함께 평가를 절차적으로 생성하는 새로운 프레임워크를 제시합니다.

 

3. 우리의 프레임워크를 사용하여, 우리는 25개의 컨트롤과 5,000개의 모델 작성 평가로 구성된 새로운 사회적 추론 벤치마크(BigToM)를 LLMs에 대해 생성합니다. 우리는 BigToM을 사용하여 다양한 LLMs의 사회적 추론 능력을 평가하고, 모델 성능을 인간의 성능과 비교합니다. 결과적으로, GPT4는 신뢰성은 낮지만 인간의 추론 패턴을 반영하는 ToM 능력을 가지고 있으며, 다른 LLM들은 이에 어려움을 겪는 것으로 나타났습니다.