AI/Google&DeepMind

대규모 언어모델을 사용한 전문가 수준의 의료 질문 답변을 향하여

유로파물고기 2023. 5. 29. 17:08
반응형

https://arxiv.org/abs/2305.09617

 

Towards Expert-Level Medical Question Answering with Large Language Models

Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been

arxiv.org

설명: https://twitter.com/alan_karthi/status/1658732728655699969?t=x21F-XtrrPj45MMM2gYnxw&s=19

 

트위터에서 즐기는 Alan Karthikesalingam

“So happy to share #MedPaLM2 - our team's evolution of Med-PaLM. A new state of art for medical question-answering! Med-PaLM 2 scores 86.5% on MedQA-USMLE, exceeding Med-PaLM's score by >19% 🤯, & 81.8% on PubMedQA... More here: https://t.co/J83vdrpxFt

twitter.com

1. 인공지능(AI) 시스템은 바둑부터 단백질 구조 예측에 이르는 '대도전'에서 이정표를 달성해왔습니다. 의학 지식을 검색하고, 그 위에서 추론하며, 의사와 비교할 수 있는 수준으로 의학 질문에 답하는 능력은 오랫동안 이러한 대도전 중 하나로 간주되었습니다.

 

2. 대형 언어 모델(LLM)은 의학 질문 응답 분야에서 중요한 진전을 이끌어냈고, Med-PaLM은 MedQA 데이터셋에서 67.2%의 점수로 미국 의학 면허 시험(USMLE) 스타일의 질문에 '합격' 점수를 넘는 첫 번째 모델이었습니다. 그러나 이와 같은 이전의 연구는 특히 모델의 답변이 의료진의 답변과 비교될 때, 향상의 여지가 많이 있음을 보여주었습니다.

 

3. 여기서는 기본 LLM의 향상(PaLM 2), 의학 도메인의 미세 조정, 그리고 새로운 앙상블 정제 접근법을 포함한 프롬프트 전략을 활용하여 이러한 간극을 메우는 Med-PaLM 2를 소개합니다. Med-PaLM 2는 MedQA 데이터셋에서 최대 86.5%의 점수를 얻어, Med-PaLM의 성능을 19% 이상 향상시키고 새로운 최첨단을 세웠습니다. 실제 의료 환경에 적용하기 위한 다양한 축을 따라 긴 질문에 대한 상세한 인간 평가를 수행하였습니다.