论文阅读 | 多智能体协作机制：大语言模型综述

[2306.03314] Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents

摘要

随着大语言模型（LLMs）的最新进展，代理式人工智能（Agentic AI）在现实应用中取得了显著进展，朝着基于多个大语言模型的智能体迈进，实现感知、学习、推理和协同行动。这些基于大语言模型的多智能体系统（MASs）使得一组智能体能够协作解决复杂任务，并以大规模方式实现集体行动，从孤立的模型转向以协作为核心的方法。

本文提供了关于多智能体系统协作方面的广泛综述，并提出了一个可扩展的框架来指导未来的研究。我们的框架根据关键维度对协作机制进行表征：参与者（涉及的智能体）、类型（例如，合作、竞争或合作竞争）、结构（例如，点对点、集中式或分布式）、策略（例如，基于角色或基于模型）以及协调协议。通过对现有方法的回顾，我们的研究成果为揭示和推动基于大语言模型的多智能体系统向更加智能和协作的解决方案发展，特别是在复杂的现实应用中，提供了基础。

此外，本文还探讨了多智能体系统在不同领域的各种应用，包括5G/6G网络、工业5.0、问答系统、以及社会文化环境，展示了它们的广泛应用和更深远的影响。最后，我们总结了关键经验教训，分析了多智能体系统面临的开放挑战，并指出了朝着人工集体智能发展的潜在研究方向。

文章大纲

应用

方法	领域	主要贡献	优点	缺点	参考文献
LLM-SC	物联网	作为知识生成器增强语义解码器	利用大语言模型，实现显著的编码增益	由于使用大语言模型，计算资源需求高	[130]
LaMoSC	物联网	提出一种大语言模型驱动的多模态融合语义通信	在低信噪比条件下表现稳健	由于使用大语言模型和视觉 Transformer，计算资源需求高	[157]
LAM-MSC	物联网	为多模态数据设计联合编码器；大语言模型作为知识生成器	一个编码器和解码器可处理多种类型的数据；实现更好的编码率和重建误差	由于使用大语言模型，计算资源需求高	[65]
GMAC	物联网	利用大语言模型实现观察状态与自然语言之间的语义对齐，并压缩语义信息	提高收敛速度；实现无通信的多智能体协作	由于使用大语言模型，计算资源需求高	[160]
LLM-Blender	自然语言生成	采用多种大语言模型代理的集成方法进行候选排序	能够生成比现有候选更好的输出	为实现最优解，需要进行 O (n) 次推理，导致计算开销大	[64]
SOT	自然语言生成	并行生成每个答案框架；完成答案内容（需要规划结构）	通过并行加速推理速度；适用于需要长结构答案的问题	答案质量评估远非完美，由于提示集有限；不同代理的并行请求可能会影响服务吞吐量	[95]
Meta-Prompting	自然语言生成	构建高级元提示来指导大语言模型	保持连贯的推理思路；挖掘各种专家角色	多次模型调用成本较高；需要大量的规模和相当大的上下文窗口	[119]
MAD	自然语言生成	两个代理表达各自的论点；一个评判者监控和管理辩论	减少偏差和扭曲的认知；鼓励无限的外部反馈	由于辩论时间长，计算成本高；大语言模型在长场景中难以保持连贯性和相关性	[77]
FORD	自然语言生成	包括三个阶段的辩论：公平辩论、不匹配辩论、圆桌辩论	通过辩论让大语言模型探索自身理解与他人概念化之间的差异	除常识推理外，无法涵盖各种任务；严重依赖多项选择任务，限制了其泛化能力	[140]
ChatDev	自然语言生成	采用聊天链将每个阶段分解为更小的子任务，实现代理之间的多轮通信，以协作开发解决方案	最大限度减少代码幻觉（提供的源代码缺失的情况）	没有清晰、详细的要求时，代理难以理解任务想法；通用软件的自动化评估非常复杂；多个代理需要更多的令牌和时间，导致计算需求大	[105]
AgentVerse	自然语言生成	由专家招募、协作决策、行动执行、评估四个阶段组成	提高大语言模型在不确定情况下的泛化能力；提高代理的适应性	协作决策过程中代理之间的通信存在挑战	[24]
AgentCoord	社会与文化领域	为协调策略提供结构化表示；采用三阶段方法将一般目标转化为可执行策略	简化协调策略的表示和探索；最小化代理的重复实例	仅支持在纯文本环境中协调代理协作；仅支持静态协调策略设计	[97]
OpenAI’s Swarm	自然语言生成	用于多智能体编排的例程和交接；轻量级协调与执行框架	适用于需要可扩展性的应用；交接机制允许在专门代理之间实现无缝过渡	主要关注基于角色的协议和集中式 / 分布式结构；尚未准备好投入生产	见原文
TE	社会与文化领域	在主题研究中模拟人类参与者的代表性样本	能够模拟不同的人类行为，并揭示模拟中的一致偏差	需要研究更多的人类行为和额外的大语言模型，以确保关键发现的准确性	[36]
AgentInstruct	社会与文化领域	通过迭代的跨代理细化生成多样化的自然语言数据，包括文化数据	能够通过工具使用、代理能力等从生成的数据中训练更强大的模型	需要人工构建生成流程	[88]
SocialMind	社会与文化领域	整合言语、非言语和社交线索，通过增强现实眼镜生成现场建议	设计并利用多模态、多层协作代理系统	需要先进的边缘硬件来处理复杂系统	[144]
CulturePark	社会与文化领域	促使基于大语言模型的代理进行跨文化交流模拟	生成的数据可用于训练具有不同文化背景的模型，减少偏差并实现民主化	仍然依赖大语言模型对每种文化的了解，因此对资源较少的文化效果有限	[73]
Mango	社会与文化领域	通过对概念和文化的提示，从基于大语言模型的代理中提取高质量知识	自动化方法可生成大量资源	人类评估需要来自更多样化的背景	[94]

六个思考帽的设计

白色思考帽

功能：收集客观信息。
实现方式
- 对论文进行解析。
- 从论文文本中抽取结构化数据。
- 从网络中搜索作者之前的研究成果。
- 从网络中搜索同类研究的对比数据。

绿色思考帽

功能：对论文提出创新性改进，探索论文的可能性
实现方式
- 未定。

黄色思考帽

功能：积极角度评估论文，找出论文的优点和贡献。
实现方式
- 用优点和创新点微调后的大模型。

黑色思考帽

功能：批判性思考，找出论文的问题和不足。
实现方式
- 用批判性数据集微调后的大模型。

红色思考帽

功能：主观感受和直觉判断。
实现方式
- 让智能体多阅读论文，找到好的论文之间的共性和形成自己的「偏好」。

蓝色思考帽

功能：控制评审流程。
实现方式
- 未定。

蓝色思考帽智能体应该如何控制？

基于工作流管理的集中式控制方法。蓝色智能体明确规定了其他智能体的工作顺序、时间和交互方式。
基于协商机制的分布式控制方法。在评审开始时，蓝色智能体发起评审任务，各思考帽智能体根据自身能力和状态反馈可承担的工作及预计时间。比如白色告诉蓝色需要5分钟完成，绿色说在白色完成后需要10分钟…通过这些反馈，蓝色智能体来制定计划。
基于事件驱动的动态控制方法。不同的智能体换成之后会触发不同的事件，如白色完成后让绿色工作，黑色和黄色在辩论后无法达成共识，就再次进行辩论等。这个事件定义较难。