做 agent 相关的项目时,一直有个绕不过去的问题:agent 生成的内容质量怎么评?人工标注太慢,让 LLM 直接打分又不知道该不该信。后来想到学术同行评审其实是个类似的场景——让模型评价一篇论文的质量,本质上和让它评价 agent 输出没有太大区别,都是"用 LLM 做复杂内容的质量判断"。
这些系统真的可靠吗?哪条路线更值得押注?
- 通用 LLM的「谄媚」:GPT-4o 平均给分 7.7,Claude-3.5 给 7.6,而人类评审平均只有 5.4。专门训练的模型反而更像人类——更会挑毛病、更会压分。
- 信息越多不一定越好:只给摘要时 accuracy 是 0.237,给全文反而掉到 0.138。怎么喂数据,比喂多少数据更关键。
- 多智能体的价值:它的收益不一定在于提高 raw accuracy,而在于让决策更校准——尤其是更准确地识别该拒的稿。
本文主要分为两部分:
- 研究现状:重点介绍DeepReview、ReviewAgents、Agent Reviewers、OpenReviewer等前沿工作,分析其技术路线和性能表现。
- 关键技术框架:对比结构化评审流程、多智能体系统、专门化评审模型等不同技术路径的优劣。
研究现状
基准与数据集
PeerRead(NAACL 2018)
- 包含 14.7K 篇论文草稿及 accept/reject 决策,其中一部分还配有 10.7K 条评审文本
- 在 ICLR 2017 的接收分类任务上,简单模型达到 65.3% accuracy,高于 57.6% 的多数类基线
- 更像是"历史基线"和"数据来源",不是现代 LLM reviewer 的上限
Thelwall & Yaghi(Scientometrics 2025)
- 在 ICLR 上,ChatGPT 对人类评分的 Spearman 相关只有 0.38(题目+摘要)到 0.46(全文)
- 在 F1000Research 上几乎失效,相关从 0.00 到 0.09
- 结论:跨平台、跨评审制度之后,paper-only 预测并不稳
★MMReview(2025)
- 收集了 240 篇论文、17 个研究领域、4 大学科门类、13 个任务
- 纳入 figures、tables 和 PDF page image
- 回应了此前研究"任务碎片化、数据不统一"的问题
早期探索
SEA框架(EMNLP 2024)
SEA:先统一标准,再生成评审
论文:arxiv
SEA 想解决一个根本问题:训练数据本身就是烂的。不同会议的评审格式不统一,同一篇论文收到的多条评审之间互相矛盾,直接拿来训练模型只会放大噪声。SEA 的核心思路是:先把数据清干净,再训练。
三步走:
- Standardization(SEA-S):用 GPT-4 把一篇论文收到的所有评审意见整合成统一格式,去掉冗余和矛盾。然后用这批整合好的数据微调 Mistral-7B,得到一个专门做评审标准化的小模型,不再依赖 GPT-4。
- Evaluation(SEA-E):把论文转成文本,结合 SEA-S 输出的标准化评审,构建指令数据集,再微调一个 Mistral-7B,让它直接生成评审意见。
- Analysis(SEA-A):引入不匹配分数——如果生成的评审打分和论文整体水平偏差太大,说明这条评审可能有问题,触发自我矫正重新生成。
结果:SEA 在格式遵循和评审与论文一致性上均优于基线,生成的评审结构与人类评审高度相似。
它的局限:SEA 的重心在「像人类一样写评审」,但没有深入解决「LLM 是否真的理解了论文」的问题——这也是后续工作(DeepReview、ReviewAgents)接着攻克的方向。
SEA 之后,2025 年涌现出更成熟的方法,整体向"结构化思维链 + 专门训练"的方向收敛。
主流方法
★DeepReview(ACL 2025)
结构化评审流程,走"human-like deep thinking process + 专门训练 reviewer 模型"的路线。
三个阶段:
- 新颖性评估:抽取核心问题,检索相关工作,对比得到novelty判断+证据
- 多维度评估:novelty、soundness、clarity、significance、experiment quality,每个维度都需要打分
- 可靠性评估:对所有结论进行反查
性能:
- ICLR 2024:DeepReviewer-14B 达到 1.3137 的 rating MSE、0.9102 的 MAE、64.06% decision accuracy
- ICLR 2025:decision accuracy 进一步到 68.78%,F1 为 0.6227
★ReviewAgents(2025)
结构化评审思维链(Review-CoT),将评审拆解为:
- Summary
- Related work
- Strengths
- Weaknesses
- Questions
- Final recommendation
通过显式结构约束,提高了生成评审的逻辑一致性与可读性。
★Agent Reviewers(ICML 2025)
多智能体评审系统,使用:
- Domain-specific reviewer agents
- Multimodal reviewer(专门看图表、公式和实验结果)
- Shared memory pool
流程:
- Meta-reviewer初始化评审并构建初始记忆
- 多个reviewer agents给出评审意见
- Discussion阶段,各agent基于彼此意见进行修订
- AC进行集中决策
关键发现: 多智能体的收益不一定表现在raw accuracy,也可能体现在类别平衡、拒稿识别和决策校准上。
★OpenReviewer(2025)
专门训练的reviewer模型:
- 使用大规模专家评审数据(约79,000条)进行微调
- 得到专门生成"critical scientific paper reviews"的 reviewer LLM
关键改进:
- 人类 reviewer 的平均推荐分是 5.4/10,OpenReviewer 也是 5.4
- GPT-4o 和 Claude-3.5 的平均推荐分分别是 7.7 和 7.6,明显偏乐观
- 通用 LLM 往往"收稿偏高",而更强的 reviewer 模型变得更像人类那样会挑毛病、会压分
★ReviewEval(EMNLP 2025)
多维评审质量评估框架:
- Human alignment(像不像人)
- Factual accuracy(事实正确)
- Analytical depth(分析深度)
- Constructiveness(是否有帮助)
- Guideline adherence(是否符合规范)
ReviewRL(EMNLP 2025)
检索、SFT 和 RL 结合的 review generation 与 rating prediction。
Reward包括:
- Accuracy:与真实得分接近、MSE/Ranking Accuracy
- Helpfulness:是不是具体、是否有帮助、是否覆盖关键问题
- Human alignment:像不像人类reviewer
支撑性研究
MARG: Multi-Agent Review Generation (2024)
- 让多个GPT-4实例读论文、内部讨论,按照评论类型专门分工
- 平均每篇产生 3.7 条 good comments,高于最佳单体基线的 1.7
- Generic comments 比例从 60% 降到 29%,且 71% 的评论被评为 specific / very specific
★Is LLM a Reliable Reviewer?(LREC-COLING 2024)
关键发现:
- 给 GPT-3.5 看人类已写好的 review时,最好能做到 0.353 的 exact accuracy
- 如果只给论文内容,效果明显下降:只看摘要是 0.237,看整篇论文反而只有 0.138
- 不一定需要输入整篇论文,而是只给筛选后的section也能提升对于aspect score prediction分数预测的效果
数据集构建方法对比
DeepReview
- 用ICLR2024-2025的paper+review
- 构建三个中间的reasoning:新颖性评估、多维度评估、可靠性评估
ReviewRL
- DeepReview的数据集中的ICLR 2024部分作为cold start
- 长CoT部分作为warm-up
ReviewAgents
- 先把Review输入LLM,变成CoT格式
- 将相关工作显式地放进了训练中
OpenReviewer
- Paper + ICLR的Reviewer Guide + review template + review
- 不对review进行处理
我的判断
梳理完这些工作之后,如果让我选一条路来实现一个实际可用的系统,我会选 DeepReview 的结构化流程 + OpenReviewer 的专门训练 这个组合——前者解决"怎么想"的问题,后者解决"打分不可信"的问题。
但我觉得这个方向真正的瓶颈不是模型能力,而是评估指标本身。现在大家用 MSE、decision accuracy 来衡量,但人类评审本来就不一致——两个人类 reviewer 给同一篇论文打分差 2 分是常态。在这个"ground truth 本身就有噪声"的情况下,模型和人类的分数对齐,到底意味着模型变好了,还是只是学会了迎合某种偏见?
这个问题目前没有好答案。但如果把这套思路迁移到 agent 输出质量评估上,反而会好做一点——因为你可以自己定义什么是"好的输出",不用依赖有噪声的人类标注作为唯一标准。