PeerReview | 论文自动评阅

论文自动评阅：LLM-based学术评审研究综述

随着大语言模型（LLM）技术的快速发展，自动化论文评审已成为学术界和工业界关注的热点。本文系统梳理了2024-2025年LLM-based学术评审的最新研究进展，涵盖基准数据集、主流方法、技术框架以及未来研究方向。

核心内容概览

本文主要分为三个部分：

最新研究进展（2024-2025）：重点介绍DeepReview、ReviewAgents、Agent Reviewers、OpenReviewer等前沿工作，分析其技术路线和性能表现。
关键技术框架：对比结构化评审流程、多智能体系统、专门化评审模型等不同技术路径的优劣。
实践思考与创新：结合最新研究，提出细粒度Review→Point→RAG数据构建方法，探讨蓝色智能体的本地部署方案。

研究意义

自动化论文评审不仅能够缓解学术同行评审的压力，还能提供更一致、更高效的评审体验。然而，当前研究仍面临基准不统一、评估指标碎片化、跨领域泛化能力不足等挑战。本文旨在为相关研究者提供一个全面的技术图谱和研究方向参考。

2024-2025年最新研究进展

基准与数据集

PeerRead（NAACL 2018）

包含 14.7K 篇论文草稿及 accept/reject 决策，其中一部分还配有 10.7K 条评审文本
在 ICLR 2017 的接收分类任务上，简单模型达到 65.3% accuracy，高于 57.6% 的多数类基线
更像是"历史基线"和"数据来源"，不是现代 LLM reviewer 的上限

Thelwall & Yaghi（Scientometrics 2025）

在 ICLR 上，ChatGPT 对人类评分的 Spearman 相关只有 0.38（题目+摘要）到 0.46（全文）
在 F1000Research 上几乎失效，相关从 0.00 到 0.09
结论：跨平台、跨评审制度之后，paper-only 预测并不稳

★MMReview（2025）

收集了 240 篇论文、17 个研究领域、4 大学科门类、13 个任务
纳入 figures、tables 和 PDF page image
回应了此前研究"任务碎片化、数据不统一"的问题

主流方法

★DeepReview（ACL 2025）

结构化评审流程，走"human-like deep thinking process + 专门训练 reviewer 模型"的路线。

三个阶段：

新颖性评估：抽取核心问题，检索相关工作，对比得到novelty判断+证据
多维度评估：novelty、soundness、clarity、significance、experiment quality，每个维度都需要打分
可靠性评估：对所有结论进行反查

性能：

ICLR 2024：DeepReviewer-14B 达到 1.3137 的 rating MSE、0.9102 的 MAE、64.06% decision accuracy
ICLR 2025：decision accuracy 进一步到 68.78%，F1 为 0.6227

★ReviewAgents（2025）

结构化评审思维链（Review-CoT），将评审拆解为：

Summary
Related work
Strengths
Weaknesses
Questions
Final recommendation

通过显式结构约束，提高了生成评审的逻辑一致性与可读性。

★Agent Reviewers（ICML 2025）

多智能体评审系统，使用：

Domain-specific reviewer agents
Multimodal reviewer（专门看图表、公式和实验结果）
Shared memory pool

流程：

Meta-reviewer初始化评审并构建初始记忆
多个reviewer agents给出评审意见
Discussion阶段，各agent基于彼此意见进行修订
AC进行集中决策

关键发现： 多智能体的收益不一定表现在raw accuracy，也可能体现在类别平衡、拒稿识别和决策校准上。

★OpenReviewer（2025）

专门训练的reviewer模型：

使用大规模专家评审数据（约79,000条）进行微调
得到专门生成"critical scientific paper reviews"的 reviewer LLM

关键改进：

人类 reviewer 的平均推荐分是 5.4/10，OpenReviewer 也是 5.4
GPT-4o 和 Claude-3.5 的平均推荐分分别是 7.7 和 7.6，明显偏乐观
通用 LLM 往往"收稿偏高"，而更强的 reviewer 模型变得更像人类那样会挑毛病、会压分

★ReviewEval（EMNLP 2025）

多维评审质量评估框架：

Human alignment（像不像人）
Factual accuracy（事实正确）
Analytical depth（分析深度）
Constructiveness（是否有帮助）
Guideline adherence（是否符合规范）

ReviewRL（EMNLP 2025）

检索、SFT 和 RL 结合的 review generation 与 rating prediction。

Reward包括：

Accuracy：与真实得分接近、MSE/Ranking Accuracy
Helpfulness：是不是具体、是否有帮助、是否覆盖关键问题
Human alignment：像不像人类reviewer

支撑性研究

MARG: Multi-Agent Review Generation (2024)

让多个GPT-4实例读论文、内部讨论，按照评论类型专门分工
平均每篇产生 3.7 条 good comments，高于最佳单体基线的 1.7
Generic comments 比例从 60% 降到 29%，且 71% 的评论被评为 specific / very specific

★Is LLM a Reliable Reviewer?（LREC-COLING 2024）

关键发现：

给 GPT-3.5 看人类已写好的 review时，最好能做到 0.353 的 exact accuracy
如果只给论文内容，效果明显下降：只看摘要是 0.237，看整篇论文反而只有 0.138
不一定需要输入整篇论文，而是只给筛选后的section也能提升对于aspect score prediction分数预测的效果

数据集构建方法对比

DeepReview

用ICLR2024-2025的paper+review
构建三个中间的reasoning：新颖性评估、多维度评估、可靠性评估

ReviewRL

DeepReview的数据集中的ICLR 2024部分作为cold start
长CoT部分作为warm-up

ReviewAgents

先把Review输入LLM，变成CoT格式
将相关工作显式地放进了训练中

OpenReviewer

Paper + ICLR的Reviewer Guide + review template + review
不对review进行处理

点击查看早期SEA框架内容（2024年研究）

生成式评审智能体

SEA框架

论文：SEA框架视频：自动化同行评审框架（EMNLP 2024）_哔哩哔哩_bilibili

背景介绍

目前的自动化审稿的方式：

基于Prompt方式。由于LLM训练时需要与人类偏好对齐，导致其倾向于讨好人类。
基于SFT。使用对应一篇文章的Review进行微调，导致结果存在片面性，且不同的会议的格式和标准也不同。

Method

SEA架构：Standardization, Evaluation and Analysis

Standardization

统一标准：作者希望整合一篇文章的所有评审意见，消除冗余和错误，集中关注文章的优点和缺点。具体来说，作者使用了训练集20%的数据，并借助GPT-4对这些评审意见进行整合，形成统一的格式和标准。这构成了一个特定微调的数据集。
微调模型：作者对一个适应长文本的开源模型Mistral-7B进行微调，以蒸馏GPT-4的数据整合能力，最终得到数据标准化模型SEA-S。

值得一提的是，SEA-S提供了一种泛化范式，可以应用于其他领域以获得标准化的评审意见。

Evaluation

使用Nougat将PDF论文都转换为text或者LaTex代码
将转换后的论文、从SEA-S输出的标准评审意见和人工Prompt放到一起，生成一个指令dataset
微调另一个Mistral-7B模型为SEA-E

经过以上处理后，SEA-E可以生成规范且高质量的评审意见。

Analysis

加入一个新的度量标准：不匹配分数。具体来说，就是用置信度（confidence）和分数（score）计算出一个值，然后将评审的评分减去加权平均分，说明这个评审意见和论文偏离比较大，可能质量不高。

计算了论文和评审之间的相互注意力，并训练了一个回归模型SEA-A来估计不匹配度分数。
在训练完模型后，实施了一个自我矫正机制：如果SEA-E生成的评审超过了一定的阈值，则重新生成该评审，加入新的提示以提高其与论文的一致性

最终作者展示了一些生成的示例，这些示例主要分为六个部分：总结（summary）、优点（strengths）、缺点（weaknesses）、问题（questions）、四个评分以及对论文的决定（接受或拒绝）和相应的理由。这些生成的评审意见与作者在实际投稿过程中收到的评审意见高度一致。

实验

使用NIPS2023和ICLR2024的80%作为训练集，20%作为测试集。

评审结果最优
SEA-S的标准化水平最高，完全按照格式遵循
不匹配度最低，与论文一致性最高

参考文献

最后更新：2026年4月12日