EN
首页
中心介绍
前沿资讯
成员介绍
攻关项目
合作伙伴
联系我们
搜索
你想找的
Frontier information
前沿资讯
“AI辅助期刊同行评审的差异性与互补性研究”被国际期刊《Publications》录用并出版
时间:2025.12.20
分享至:

作者:杨志和 周晓雨 江羽欣 张新杰 高麒惠 路颜竹 杨安琦


摘  要针对学术产出激增与审稿资源不足的矛盾,本文旨在评估大型语言模型(LLM)辅助同行评审的可行性,明确其能力边界与合理角色,为构建高效、公正的人机协同评审流程提供实证依据。本文以开放评审期刊PeerJ为数据源,构建包含493对人类专家评审与GPT-4o模拟评审的平行语料库,采用关键词共现网络、情感与主观性分析、句法复杂度与POS n-gram分布熵等方法,比较二者在认知范式、批评风格与主题覆盖上的差异。研究发现,AI与人类评审在功能上高度互补:人类强调整体性与社会化评估,AI则以摘要为基点进行锚定式核查;其次,在批评风格上,本研究颠覆了AI评审更温和、批判性不足的初始假设,证实AI评审的功能化批评范式可导致更高的批评密度;在议题覆盖上,双方聚焦高度一致。研究表明,AI审稿虽并不能替代人类评审,但其在结构化检查等方面具有独特优势,因此本文提出AI辅助期刊评审流程优化框架,以缓解审稿资源不足的现状,实现期刊审稿的提质增效。

关键词:人工智能;AI辅助;大语言模型;同行评审;审稿

 

研究内容速递

近年来,全球学术出版正加速迈向“增量式科学”时代,其特征是研究成果的数量持续攀升,但在颠覆性创新上的比例呈下降趋势。在国家战略层面,国务院于2025年8月发布的《国务院关于深入实施“人工智能+”行动的意见》中明确提出,要推动人工智能与社会各行业、各领域的广泛深度融合,加快形成人机协同、跨界融合、共创分享的智能经济与智能社会新形态;文件特别强调了人工智能驱动的新型科研范式与跨学科应用,为探索“人工智能+期刊评审”提供了重要的政策背景和战略指引。根据2024年STM协会,即国际科学、技术与医学出版商协会发布的报告,2013-2023年间,期刊文章、综述与会议论文年产量累计增长47%,年复合增长率约4%,同期金色开放获取(Gold OA)比例由11%提升至38%,成为支持发文量快速增加的关键机制之一。在生物医学与生命科学领域,美国国家医学图书馆(National Library of Medicine,NLM)的统计数据显示,自2020年起,PubMed每年收录期刊论文数已稳定超过150万篇,而在2010年,这一数字还尚不足74万篇,这种前所未有的出版扩张在推动知识传播的同时,也使同行评审体系面临着前所未有的压力。

学术期刊投稿量激增的背后,既有目前盛行的、鼓励大规模发刊的“非升即走”式科研评价机制所带来的压力,也受到开放获取(Open Access,OA)商业模式带来的经济激励的推动。在作者需支付文章处理费(Article Processing Charges,APC)的制度下,出版商为增加收益空间,不断拓展版面与栏目,进而催生出特刊(Special issue)和巨型期刊(Mega Journal)等策略,进一步抬升了整体发文基数。以大型开放获取出版商MDPI为例,其年投稿量于2023年已增长至65.5万篇,同比增加8.6%,在全球金色OA市场中占据约17%份额。然而,尽管期刊投稿数量正迅速攀升,但评审资源却未能随之同步扩张,致使当前学术出版普遍面临投稿量激增、审稿人短缺、审稿周期延长等一系列结构性困境。Hajari F等学者于2024年开展的计量研究指出,最活跃的20%审稿人承担了约80%的评审任务,审稿负荷呈现典型的帕累托式长尾分布。即便是在效率领先的开放评审期刊PeerJ中,首轮评审结果的中位等待时间也达到了30天,而这一速度已是PLOS ONE的2.5倍。由此可见,评审资源的紧张和配置不均衡正逐渐演化为限制学术成果传播效率的关键瓶颈。

在此背景下,人工智能,尤其是大型语言模型(Large Language Models,LLMs)已被视为辅助期刊审稿的强有力工具。斯坦福大学James Zou团队在2024年的研究表明,GPT-4生成的审稿意见与人类专家关注点的重合度达30-40%,相当于两位人类审稿人之间的平均水平;在后续调查中,57.4%的作者认为GPT-4反馈有帮助,82.4%的作者甚至认为其优于部分人类意见;不过,该研究也指出了GPT-4评审所存在的局限,例如其意见有时过于泛泛,倾向于提出增加数据集等表层建议,难以深入指出方法论缺陷。2025年4月,ICLR 2025实施了迄今为止最大规模的LLM辅助同行评审实验,在这项大规模随机对照试验中,26.6%的审稿人参考了LLM的反馈来修订其评审意见,表明参考AI建议后的评审质量在89%的情况下优于原版;研究还发现,接受AI反馈的审稿意见往往篇幅增加(平均多出约80字)且更具体可行。这些成果初步表明,AI在提升审稿意见的清晰度与建设性方面存在一定的可行性。

鉴于AI在提升同行评审质量方面的潜力,本研究基于开放评审期刊PeerJ数据,构建AI与人类评审意见对照语料库,从语义内容、文本结构、情绪倾向与批判风格等多维度系统比较二者差异,以检验AI在审稿任务中的胜任力,并界定其在真实学术情境下的能力边界、角色定位与应用场景,旨在为智能化学术出版环境中AI辅助同行评审的规范应用与风险管控提供实证依据与理论参考。

本研究将采用文本研究与对比分析方法,基于开放评审期刊PeerJ计算机科学领域(涵盖人工智能、计算机视觉与自然语言处理)的493篇初版稿件及其人类专家评审意见,构建平行语料库,并利用大型语言模型(GPT-4o)生成对应的 AI 模拟评审文本,形成由数据采集、数据预处理、AI评审语料生成与多维度对比分析为核心的技术路径。

本文围绕四个假设(H1-H4),基于PeerJ开放评审语料的平行对照分析,从情绪倾向、主观性、主题覆盖度及语言结构等维度,揭示了AI与人类评审在功能特征与认知模式上的差异与互补性。主要结论如下:1)相较于人类评审,AI评审语言缺乏社交性修辞,在内容层面表现出更高的批评密度与负面性,假设H1被否定;2)AI评审主观性更低,更集中于事实与可验证要素,而人类评审更易融入个人经验与判断,假设H2成立;3)AI与人类评审在核心议题上的覆盖高度一致,语义层面难以区分,主题覆盖度无显著差异,假设H3成立;4)AI评审呈现多维度模板化特征,其文本更集中、更简洁、更可预测,体现出统计收敛带来的规范化优势,但表达多样性不足,假设H4成立。因此,本研究认为,AI并非人类评审的替代品,而是一种具有独特结构性优势、在功能上互补的智能工具,人类专家擅长整体性、综合性的价值判断与创新性评估,AI则在结构化、一致性核查与规范性检查方面更具优势,这种互补关系为构建高效的人机协同评审流程提供了实证支撑。

该框架将人工智能嵌入稿件准备、编辑初审与专家评审等关键环节,通过前置自查、自动化结构比对与智能辅助分析等方式缓解审稿资源紧张、提升评审一致性和流程透明度。同时,学术判断、伦理把关与出版决策仍必须由人类专家负责,确保评审体系的专业性、可解释性与责任明确性。需要强调的是,AI评审的引入必须在制度层面划定边界,建立严格的使用规范和披露机制,以防范数据隐私、版权合规与算法偏差等潜在风险。在规范与监管的保障下,方能真正实现AI赋能学术评审,推动形成AI预审、专家深评的分工协作模式。这不仅有助于缓解我国期刊评审资源紧张、提升评审效率与质量,也将为建设高水平、可信赖的学术评价体系提供新的路径,并为“人工智能+期刊评审”的战略落地提供实证参照。

二维码查看原文

image.png

点击以下隐藏链接查看原文:

Human–AI Complementarity in Peer Review: Empirical Analysis of PeerJ Data and Design of an Efficient Collaborative Review Framework | MDPI

地址
中华人民共和国,黑龙江省哈尔滨市南岗区学府路74号
电话
+8619822642096
邮箱
topfuturologist@126.com
关注我们
中心介绍
前沿资讯
头条新闻
科研成果
未来预见
成员介绍
攻关项目
合作伙伴
联系我们

官方微信公众号(扫码关注)

微信捐款/支付(请备注明细)

顶级未来学家-Top Futurologist
黑ICP备2022002719号 版权信息:Copyright to 杨志和      技术支持:未来学研究项目组