文献详情 >基于大型语言模型的药理学考试主观题智能评分研究收藏

基于大型语言模型的药理学考试主观题智能评分研究

Research on intelligent scoring of subjective questions in Pharmacology exams based on Large Language Models

作者：向巴卓玛王珍珍畅洪昇赵岩松廖国龙马星光 XIANGBA Zhuoma;WANG Zhenzhen;CHANG Hongsheng;ZHAO Yansong;LIAO Guolong;MA Xingguang

作者机构：北京中医药大学管理学院北京102488
北京中医药大学中药学院北京102488
北京中医药大学中医学院北京102488

出版物：《中国医学教育技术》 (China Medical Education Technology)

年卷期：2024年第38卷第5期

页面：572-579

中图分类：G642.0[文化、科学、教育、体育-各级教育] G434[文化、科学、教育、体育-教育]

学科分类：0401[教育学-教育学] 04[教育学] 040102[教育学-课程与教学论] 040110[教育学-教育技术学（可授教育学、理学学位）]

基　　金：北京中医药大学哲学社会科学培育基金项目“基于敏捷数据管理方法论和大语言模型的医学主观题智能阅卷研究”(2024-JYB-PY-006)
北京中医药大学教育科学研究课题“基于低代码的在线考试系统及可视化分析”(XJY22048)

主　　题：人工智能大型语言模型主观题智能评分药理学提示工程

摘要：文章探讨大型语言模型(large language model,LLM)在药理学主观题智能评分中的应用效果。选取ChatGPT 4.0、Claude 2、讯飞星火认知大模型3.0、智谱清言3.0和文心一言3.5五种LLM,通过多种评分标准和提示工程技术,对药理学短文本类主观题进行评分。结果显示,ChatGPT 4.0评分上表现最为出色,平均绝对误差率(mean absolute error rate,MAER)和均方根误差(root mean square error,RMSE)分别为0.0517和1.0339,且组内相关系数(ICC)高达0.936,表明其评分具有较高的一致性和准确性。Claude 2紧随其后,MAER和RMSE分别为0.0724和1.2999,ICC为0.893,同样显示出良好的评分性能。其他模型在评分一致性和偏差方面表现较差,尤其是讯飞星火认知大模型3.0,MAER和RMSE分别为0.2828和3.0286,ICC仅为0.217。总体来看,LLM能有效利用其语言理解和逻辑推理能力,实现主观题的智能评分,并提供详尽的评分解析,这有助于提升学生的学习效率和自我评估能力。相比传统人工评分,LLM在主观题智能评分方面具有更高的效率和成本效益。该研究为ChatGPT等先进模型在教育领域的应用提供了新的视角和方法,也为未来教育结合人工智能的发展与应用提供借鉴。

电子资源

读者评论与其他读者分享你的观点

点评学校读者

用户名:未登录

我的评分

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于大型语言模型的药理学考试主观题智能评分研究

读者评论与其他读者分享你的观点

请选择收藏分类：

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于大型语言模型的药理学考试主观题智能评分研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

读者评论与其他读者分享你的观点

请选择收藏分类：