论文评审 | LLM-based评审方法研究

做 agent 相关的项目时，一直有个绕不过去的问题：agent 生成的内容质量怎么评？人工标注太慢，让 LLM 直接打分又不知道该不该信。后来想到学术同行评审其实是个类似的场景——让模型评价一篇论文的质量，本质上和让它评价 agent 输出没有太大区别，都是"用 LLM 做复杂内容的质量判断"。

这些系统真的可靠吗？哪条路线更值得押注？

通用 LLM的「谄媚」：GPT-4o 平均给分 7.7，Claude-3.5 给 7.6，而人类评审平均只有 5.4。专门训练的模型反而更像人类——更会挑毛病、更会压分。
信息越多不一定越好：只给摘要时 accuracy 是 0.237，给全文反而掉到 0.138。怎么喂数据，比喂多少数据更关键。
多智能体的价值：它的收益不一定在于提高 raw accuracy，而在于让决策更校准——尤其是更准确地识别该拒的稿。

本文主要分为两部分：

研究现状：重点介绍DeepReview、ReviewAgents、Agent Reviewers、OpenReviewer等前沿工作，分析其技术路线和性能表现。
关键技术框架：对比结构化评审流程、多智能体系统、专门化评审模型等不同技术路径的优劣。

研究现状

基准与数据集

PeerRead（NAACL 2018）

包含 14.7K 篇论文草稿及 accept/reject 决策，其中一部分还配有 10.7K 条评审文本
在 ICLR 2017 的接收分类任务上，简单模型达到 65.3% accuracy，高于 57.6% 的多数类基线
更像是"历史基线"和"数据来源"，不是现代 LLM reviewer 的上限

Thelwall & Yaghi（Scientometrics 2025）

在 ICLR 上，ChatGPT 对人类评分的 Spearman 相关只有 0.38（题目+摘要）到 0.46（全文）
在 F1000Research 上几乎失效，相关从 0.00 到 0.09
结论：跨平台、跨评审制度之后，paper-only 预测并不稳

★MMReview（2025）

收集了 240 篇论文、17 个研究领域、4 大学科门类、13 个任务
纳入 figures、tables 和 PDF page image
回应了此前研究"任务碎片化、数据不统一"的问题

早期探索

SEA框架（EMNLP 2024）

SEA：先统一标准，再生成评审

论文：arxiv

SEA 想解决一个根本问题：训练数据本身就是烂的。不同会议的评审格式不统一，同一篇论文收到的多条评审之间互相矛盾，直接拿来训练模型只会放大噪声。SEA 的核心思路是：先把数据清干净，再训练。

三步走：

Standardization（SEA-S）：用 GPT-4 把一篇论文收到的所有评审意见整合成统一格式，去掉冗余和矛盾。然后用这批整合好的数据微调 Mistral-7B，得到一个专门做评审标准化的小模型，不再依赖 GPT-4。
Evaluation（SEA-E）：把论文转成文本，结合 SEA-S 输出的标准化评审，构建指令数据集，再微调一个 Mistral-7B，让它直接生成评审意见。
Analysis（SEA-A）：引入不匹配分数——如果生成的评审打分和论文整体水平偏差太大，说明这条评审可能有问题，触发自我矫正重新生成。

结果：SEA 在格式遵循和评审与论文一致性上均优于基线，生成的评审结构与人类评审高度相似。

它的局限：SEA 的重心在「像人类一样写评审」，但没有深入解决「LLM 是否真的理解了论文」的问题——这也是后续工作（DeepReview、ReviewAgents）接着攻克的方向。

SEA 之后，2025 年涌现出更成熟的方法，整体向"结构化思维链 + 专门训练"的方向收敛。

主流方法

★DeepReview（ACL 2025）

结构化评审流程，走"human-like deep thinking process + 专门训练 reviewer 模型"的路线。

三个阶段：

新颖性评估：抽取核心问题，检索相关工作，对比得到novelty判断+证据
多维度评估：novelty、soundness、clarity、significance、experiment quality，每个维度都需要打分
可靠性评估：对所有结论进行反查

性能：

ICLR 2024：DeepReviewer-14B 达到 1.3137 的 rating MSE、0.9102 的 MAE、64.06% decision accuracy
ICLR 2025：decision accuracy 进一步到 68.78%，F1 为 0.6227

★ReviewAgents（2025）

结构化评审思维链（Review-CoT），将评审拆解为：

Summary
Related work
Strengths
Weaknesses
Questions
Final recommendation

通过显式结构约束，提高了生成评审的逻辑一致性与可读性。

★Agent Reviewers（ICML 2025）

多智能体评审系统，使用：

Domain-specific reviewer agents
Multimodal reviewer（专门看图表、公式和实验结果）
Shared memory pool

流程：

Meta-reviewer初始化评审并构建初始记忆
多个reviewer agents给出评审意见
Discussion阶段，各agent基于彼此意见进行修订
AC进行集中决策

关键发现： 多智能体的收益不一定表现在raw accuracy，也可能体现在类别平衡、拒稿识别和决策校准上。

★OpenReviewer（2025）

专门训练的reviewer模型：

使用大规模专家评审数据（约79,000条）进行微调
得到专门生成"critical scientific paper reviews"的 reviewer LLM

关键改进：

人类 reviewer 的平均推荐分是 5.4/10，OpenReviewer 也是 5.4
GPT-4o 和 Claude-3.5 的平均推荐分分别是 7.7 和 7.6，明显偏乐观
通用 LLM 往往"收稿偏高"，而更强的 reviewer 模型变得更像人类那样会挑毛病、会压分

★ReviewEval（EMNLP 2025）

多维评审质量评估框架：

Human alignment（像不像人）
Factual accuracy（事实正确）
Analytical depth（分析深度）
Constructiveness（是否有帮助）
Guideline adherence（是否符合规范）

ReviewRL（EMNLP 2025）

检索、SFT 和 RL 结合的 review generation 与 rating prediction。

Reward包括：

Accuracy：与真实得分接近、MSE/Ranking Accuracy
Helpfulness：是不是具体、是否有帮助、是否覆盖关键问题
Human alignment：像不像人类reviewer

支撑性研究

MARG: Multi-Agent Review Generation (2024)

让多个GPT-4实例读论文、内部讨论，按照评论类型专门分工
平均每篇产生 3.7 条 good comments，高于最佳单体基线的 1.7
Generic comments 比例从 60% 降到 29%，且 71% 的评论被评为 specific / very specific

★Is LLM a Reliable Reviewer?（LREC-COLING 2024）

关键发现：

给 GPT-3.5 看人类已写好的 review时，最好能做到 0.353 的 exact accuracy
如果只给论文内容，效果明显下降：只看摘要是 0.237，看整篇论文反而只有 0.138
不一定需要输入整篇论文，而是只给筛选后的section也能提升对于aspect score prediction分数预测的效果

数据集构建方法对比

DeepReview

用ICLR2024-2025的paper+review
构建三个中间的reasoning：新颖性评估、多维度评估、可靠性评估

ReviewRL

DeepReview的数据集中的ICLR 2024部分作为cold start
长CoT部分作为warm-up

ReviewAgents

先把Review输入LLM，变成CoT格式
将相关工作显式地放进了训练中

OpenReviewer

Paper + ICLR的Reviewer Guide + review template + review
不对review进行处理

我的判断

梳理完这些工作之后，如果让我选一条路来实现一个实际可用的系统，我会选 DeepReview 的结构化流程 + OpenReviewer 的专门训练 这个组合——前者解决"怎么想"的问题，后者解决"打分不可信"的问题。

但我觉得这个方向真正的瓶颈不是模型能力，而是评估指标本身。现在大家用 MSE、decision accuracy 来衡量，但人类评审本来就不一致——两个人类 reviewer 给同一篇论文打分差 2 分是常态。在这个"ground truth 本身就有噪声"的情况下，模型和人类的分数对齐，到底意味着模型变好了，还是只是学会了迎合某种偏见？

这个问题目前没有好答案。但如果把这套思路迁移到 agent 输出质量评估上，反而会好做一点——因为你可以自己定义什么是"好的输出"，不用依赖有噪声的人类标注作为唯一标准。