반응형
https://arxiv.org/abs/2306.15448
1. 대형 언어 모델(LLM)이 우리 일상에 점점 더 통합됨에 따라, 인간의 정신 상태를 이해하는 그들의 능력을 이해하는 것은 효과적인 상호작용을 보장하기 위해 중요해집니다. 그러나 이러한 모델이 인간의 이론적 사고(Theory-of-Mind, ToM)와 얼마나 일치할 수 있는지는 아직 복잡한 탐구 주제입니다.
2. 이는 주로 두 가지 도전 때문인데, (1) 이전 평가에서 불일치한 결과가 나타난 것과 (2) 기존 평가 방법론의 유효성에 대한 우려 때문입니다. 이러한 도전을 해결하기 위해, 우리는 원인 템플릿을 채우는 방식으로 LLMs와 함께 평가를 절차적으로 생성하는 새로운 프레임워크를 제시합니다.
3. 우리의 프레임워크를 사용하여, 우리는 25개의 컨트롤과 5,000개의 모델 작성 평가로 구성된 새로운 사회적 추론 벤치마크(BigToM)를 LLMs에 대해 생성합니다. 우리는 BigToM을 사용하여 다양한 LLMs의 사회적 추론 능력을 평가하고, 모델 성능을 인간의 성능과 비교합니다. 결과적으로, GPT4는 신뢰성은 낮지만 인간의 추론 패턴을 반영하는 ToM 능력을 가지고 있으며, 다른 LLM들은 이에 어려움을 겪는 것으로 나타났습니다.
'AI > etc' 카테고리의 다른 글
산술 트랜스포머의 길이 일반화 (0) | 2023.06.28 |
---|---|
Aidan Gomez 인터뷰 (0) | 2023.06.23 |
명령 예측을 통한 장기적 모방 개선 (0) | 2023.06.23 |
미래의 ML 시스템은 질적으로 다를 것입니다 (0) | 2023.06.21 |
ALP: 인식을 위한 행동 인식 구현 학습 (0) | 2023.06.21 |