实习 | 兽人永不为奴，但偶尔可以

实习 | 兽人永不为奴，但偶尔可以

实习准备与经验总结

本文记录实习准备过程中的技术积累、面试经验以及实际项目心得。随着在LLM和多智能体领域研究的深入，这里更新了最新的项目经验和技能总结。

最新项目经验

1. 基于思考帽认知模型的多智能体学术评审系统（2025.05 - 至今）

项目背景：针对学术评审反馈周期长、反馈建议模糊的痛点，开发了一套融合六项思考帽认知模型和强化学习博弈的自动化评审框架。

核心技术：

数据集构建：采集并处理OpenReview等开源评审数据，构建基于[论文片段-亮点/缺陷识别-维度归因]思维链的训练集
智能体定制：基于LLaMA-Factory框架，使用LoRA技术对开源模型进行指令微调（SFT）得到多个角色智能体（白/黄/黑/绿帽）
动态辩论协议：设计并实现动态权重感知共识多智能体动态辩论协议，引入蓝帽（裁判智能体）进行多维度实时评估
闭环验证：集成事实性校验模块，对低置信度或矛盾信息自动触发检索与重评估循环

实验成果：

系统评分与专家加权分平均绝对误差仅为0.42
语义重合度F1相比单模型Zero-shot评审提升28%
结论逻辑矛盾性减少38%，实现100%证据可溯源
在盲测评审中针对专家意见的覆盖率达88%

2. CCKS 2025 - 天池挑战赛 - 人工智能领域论文复杂问题问答评测（2025.07 - 2025.08）

项目背景：基于85篇AI顶会论文的PDF版本，回答人工标注的多选题，考察模型的长文本理解、多跳推理、实验数据解析及逻辑严谨性。

技术方案：

多模态解析：对PDF论文进行精细标注，分离文本、表格与图像区域，采用Qwen-VL-OCR/Qwen2.5-VL提取图表深层语义
RAG优化：使用Latechunk等技术进行智能分块，构建Qdrant向量数据库，使用Qwen3-Reranker模型进行精排序
鲁棒决策：开发rerank驱动的选项支持度判定算法，通过独立计算各选项证据分及Top-K补偿策略

项目成果：复赛13/336（前5%），在学术多选题上达到52%的准确率，与第一名差距仅4%

技术深度：微调与Agent系统

微调技术详解

LoRA：Low-Rank Adaptation of LLM

核心优势：

参数效率：仅需调整0.1%-0.01%的参数
训练速度：显著减少训练和部署时间
模块化设计：不影响原始模型，避免灾难性遗忘

数学原理：

基于奇异值分解（SVD），大部分信息集中在少量奇异值上
LoRA论文中GPT-3上的$\Delta W$的前10-20个奇异值可保留90%以上信息
参数更新：$W’=W+\Delta W=W+A\times B$

训练流程：

初始化：$A$用小的随机值初始化，$B$初始化为全0
前向传播：$Y_{pred}=(W+A\times B)\times X$
损失计算：$L=Loss(Y_{true},Y_{pred})$
反向传播：计算损失对$A$和$B$的梯度并更新
迭代优化：重复直到收敛

应用位置：

主要应用于注意力层中的$W_q$和$W_v$
前馈层的LoRA在较大模型上可能有收益

LoRA改进版本对比

方法	核心改进	适用场景
LoRA+	加速训练，调整B比A的学习率更高	需要快速迭代的场景
DoRA	权重分解为幅度和方向，分别调整	追求高性能的场景
rsLoRA	引入动态秩调整和稳定化因子	训练稳定性要求高的场景
PiSSA	优化初始化，使用SVD分解初始化A和B	需要快速收敛的场景
GaLore	内存占用极低	资源受限的环境

LLaMA Factory微调关键参数

参数类别	参数名	核心作用	建议值
训练核心	学习率	控制参数更新步长	LoRA: 1e-4到5e-4 全量: 1e-5到3e-5
	`per_device_train_batch_size` `gradient_accumulation_steps`	决定有效批处理大小	有效批大小 ≥ 16
LoRA核心	`lora_rank`	决定适配器能力	通用任务: 8/16/32 复杂任务: 64+
	`lora_alpha`	控制适配器输出缩放	通常设为`lora_rank`的2倍
流程控制	`num_train_epochs`	控制训练遍数	指令微调: 1-3个epoch
数据格式	`template`	指定数据格式模板	优先使用`default`或模型对应模板
资源与长度	`cutoff_len`	设置训练数据最大长度	根据任务实际需要设置

Agent系统设计

记忆系统架构

短期工作记忆（当前评审会话）：

存储当前论文的评审进度、已识别问题点
保留最近3-5轮Agent间的对话上下文
实现方式：内存中的字典结构，会话结束时清空

中期项目记忆（单篇论文评审全流程）：

存储各思考帽Agent的评审意见、置信度分数
记录评审过程中的冲突检测与解决历史
实现方式：Redis缓存，设置24小时过期时间

长期知识记忆（跨论文评审经验）：

存储历史评审模式、常见问题类型
积累各思考帽Agent的准确率统计数据
实现方式：向量数据库（FAISS）+ 关系型数据库

动态辩论协议设计

核心机制：

多维度评估：蓝帽智能体对论点进行逻辑性、证据链完整性等多维度实时测度
激励约束：基于零和博弈的奖励信号分配，奖励正确见解，惩罚无效或误导性批判
权重演化：根据博弈演化后的智能体权重，通过动态加权机制生成最终结论

技术实现：

使用LangChain/LangGraph框架构建Agent工作流
集成CoT（思维链）和ReAct（推理-行动）思想
设计可扩展的插件系统支持不同评审场景

面试准备要点

常见技术问题

LoRA原理与实现
- 为什么低秩分解有效？
- 如何选择rank和alpha参数？
- 与传统微调相比的优缺点？
RAG系统优化
- 分块策略如何影响检索效果？
- 如何处理长文档的多跳推理？
- 如何评估RAG系统的性能？
多智能体系统
- 如何设计Agent间的通信协议？
- 如何解决Agent间的冲突？
- 如何评估多智能体系统的整体性能？
模型评估
- 学术评审场景的特殊评估指标？
- 如何平衡自动化评审与人工评审？
- 如何处理领域特异性问题？

项目经验阐述

STAR法则应用：

Situation：清晰描述项目背景和问题
Task：明确个人承担的具体任务
Action：详细说明采取的技术方案和实现细节
Result：量化展示项目成果和影响

技术深度展示：

不仅说明"做了什么"，更要解释"为什么这么做"
展示对技术选型的思考和权衡
分享遇到的问题和解决方案

技能总结

核心技术栈

模型架构：熟悉Transformer原理，了解GPT、Qwen、DeepSeek等主流模型差异
大模型微调：掌握Qwen、Llama等模型的LoRA/QLoRA微调经验
检索增强生成：具备RAG项目经验，熟悉Embedding、Chunking和Reranking策略
Agent工程：熟悉多智能体系统设计，掌握LangChain/LangGraph框架

综合素质

良好的沟通表达能力，常担任项目负责人协调团队
丰富的竞赛经验（数学建模美赛M奖、国赛省级二等奖等）
快速学习和技术调研能力

未来方向

继续深化在多智能体学术评审领域的研究
探索教育大模型的实际应用场景
参与开源社区贡献，分享技术经验