基于大型语言模型的药理学考试主观题智能评分研究
Research on intelligent scoring of subjective questions in Pharmacology exams based on Large Language Models作者机构:北京中医药大学管理学院北京102488
北京中医药大学中药学院北京102488
北京中医药大学中医学院北京102488
出 版 物:《中国医学教育技术》 (China Medical Education Technology)
年 卷 期:2024年第38卷第5期
页 面:572-579
中图分类:G642.0[文化、科学、教育、体育-各级教育] G434[文化、科学、教育、体育-教育]
学科分类:0401[教育学-教育学] 04[教育学] 040102[教育学-课程与教学论] 040110[教育学-教育技术学(可授教育学、理学学位)]
基 金:北京中医药大学哲学社会科学培育基金项目“基于敏捷数据管理方法论和大语言模型的医学主观题智能阅卷研究”(2024-JYB-PY-006)
北京中医药大学教育科学研究课题“基于低代码的在线考试系统及可视化分析”(XJY22048)
主 题:人工智能 大型语言模型 主观题智能评分 药理学 提示工程
摘 要:文章探讨大型语言模型(large language model,LLM)在药理学主观题智能评分中的应用效果。选取ChatGPT 4.0、Claude 2、讯飞星火认知大模型3.0、智谱清言3.0和文心一言3.5五种LLM,通过多种评分标准和提示工程技术,对药理学短文本类主观题进行评分。结果显示,ChatGPT 4.0评分上表现最为出色,平均绝对误差率(mean absolute error rate,MAER)和均方根误差(root mean square error,RMSE)分别为0.0517和1.0339,且组内相关系数(ICC)高达0.936,表明其评分具有较高的一致性和准确性。Claude 2紧随其后,MAER和RMSE分别为0.0724和1.2999,ICC为0.893,同样显示出良好的评分性能。其他模型在评分一致性和偏差方面表现较差,尤其是讯飞星火认知大模型3.0,MAER和RMSE分别为0.2828和3.0286,ICC仅为0.217。总体来看,LLM能有效利用其语言理解和逻辑推理能力,实现主观题的智能评分,并提供详尽的评分解析,这有助于提升学生的学习效率和自我评估能力。相比传统人工评分,LLM在主观题智能评分方面具有更高的效率和成本效益。该研究为ChatGPT等先进模型在教育领域的应用提供了新的视角和方法,也为未来教育结合人工智能的发展与应用提供借鉴。