2025年4月15日下午,北京大学信息管理系第130期“信管开讲啦”学术讲座在方李邦琴楼507教室举行。本次讲座特邀国际科学计量学和信息计量学领域最高奖项普赖斯奖得主、英国谢菲尔德大学信息学院教授Mike Thelwall就“基于大语言模型的科研质量评估”主题进行学术报告。讲座由北京大学信息管理系助理教授步一主持,系主任助理、长聘副教授刘畅,长聘副教授粱兴堃,助理教授夏汇川等教师出席,来自多个院系的学生参与活动。
讲座现场
Thelwall指出,科研质量评估是学术界长期面临的挑战。无论是期刊投稿、职称晋升,还是科研机构评估,传统方法多依赖专家评审或基于引文的定量指标。然而,专家评审耗时费力,而引文指标仅能反映研究的学术影响力,难以全面衡量其原创性、严谨性及社会价值。
他进一步指出,近年来以ChatGPT、Gemini和DeepSeek为代表的大语言模型在科研质量评估中展现出新的应用潜力。他尝试将英国2021年“卓越研究框架”(Research Excellence Framework,REF)评估标准输入ChatGPT,让其模拟专家评审流程对学术论文进行评分,并将模型结果与人类专家评估结果进行对比。研究发现,尽管模型在单次评分中存在一定偏差,但多轮运行后,模型评分的稳定性和可靠性显著提升。
在报告中,Thelwall以一个诙谐的实验案例展示了大语言模型用于科研评价的局限性。该实验将一篇虚构论文《松鼠外科医生的引文影响力更高吗》输入ChatGPT,模型不仅给出REF四星级高分评价,还严肃分析了“作者物种差异对引文的影响”。然而,当被追问“松鼠是否具备撰写学术论文的能力”时,模型明确否认,印证其具备一定的常识判断能力。
讲座最后,Thelwall指出,尽管大语言模型为科研评估提供了全新的视角和工具,但其实际应用仍需保持谨慎。他特别提出三点警示:若大语言模型被广泛用于科研评估,研究人员可能会刻意迎合模型偏好,从而影响学术表达的真实性;未经授权将论文上传至大语言模型可能引发版权问题;模型自动生成的评估结果不可直接用于正式的同行评审,因为其单次生成的结果可靠性较低。
在提问环节,参会师生积极发言、踊跃提问,与Thelwall展开热烈而深入的讨论。互动结束后,刘畅代表北京大学信息管理系向Thelwall赠送纪念品。
向Thelwall赠送纪念品
师生合影