关键词:
大语言模型
中文医疗模型
测评基准
ChatGPT
中医学
摘要:
目的针对目前大语言模型(LLMs)在中医学领域测评中的空缺,设计并构建一个中医学测评基准数据集,以对LLMs在中医学知识的掌握与推理表现进行全面、客观地评测,从而为LLMs在中医领域的性能优化提供科学、可靠的依据。方法从中医标准化考试和教科书中收集数据,构建了一个涵盖13个学科共29506道题的中医测评基准数据集。实验共选取了3个通用模型(GPT3.5、ChatGLM3、Baichuan)和5个中文医疗模型(PULSE、BenTsao、HuatuoGPT2、BianQue2、ShenNong),对它们在答案预测能力和答案推理能力进行全面评测。测评结果使用准确率、F1值、BLEU、Rouge等指标进行量化评估。结果答案预测实验的结果显示,Baichuan在单项选题中准确率最高,为36.07%;ChatGLM3在多项选题中准确率和F1值最高,为18.96%和76.31%。答案推理实验的结果显示,Baichuan在BLEU-1分值最高,为24.71;ChatGLM3在Rouge-1分值最高,为44.64。结论通用LLMs整体表现略优于中文医疗LLMs,同时所有模型在选择题上的准确率都未超过60%,反映出LLM在中医领域中仍面临巨大的挑战和提升空间。