WeClaw 多智能体对话功能深度评测:从辩论到围炉,AI 协作的范式跃迁
一个微信聊天框,四种思维协作模式——WeClaw 的 /debate、/chat、/roundtable 和 /workflow 正在重新定义人与 AI 的关系。
写在前面
市面上的 AI 产品几乎都在做同一件事:单人单次问答。你问一句,AI 答一句。即使 ChatGPT 支持多轮对话,本质上仍然是"一个人对一个模型"的线性交互。
WeClaw 选择了另一条路。它把微信聊天框变成了一个多智能体协作的操作系统 Shell,提供了四种不同的对话模式——对抗、协作、探讨、执行。每种模式不是简单的"换个 prompt",而是从根本上改变了 AI 参与的角色结构、信息流动和产出形式。
本文将对 /debate、/chat、/roundtable 和 /workflow 这四个核心功能进行深度评测,分析它们的设计逻辑、技术实现和实际效果。
一、多智能体对话的设计哲学
在评测具体功能之前,先理解 WeClaw 为什么要做多智能体对话。
传统的 AI 聊天有一个隐藏的局限:单一视角陷阱。无论模型多强大,它的回答总是一个视角、一种风格、一套知识体系的产物。当问题复杂到需要多个角度审视时,单模型单次回答的局限就暴露了——你需要反复追问,手动切换角度,在多个回答之间跳转,自己做 brain 里的"思维拼图"。
WeClaw 解决这个问题的方法非常 Unix:不只给一个答案,而是编排一场对话。通过 /debate(对抗)、/chat(协作)、/roundtable(探讨)、/workflow(执行)四种模式,WeClaw 将"人与 AI"的单线交互扩展为"人与多个 AI + AI 之间"的网络交互。
值得注意的设计决策是:用户不直接参与对话。你不是让 Claude 和 DeepSeek 在你面前聊天,而是你出题、指定裁判和球员,然后比赛在你关掉屏幕后继续进行,结果通过微信推送回来。这是一个异步的事件驱动模型——Unix 的 cron job,而不是同步视频会议。
二、功能逐一评测
- /debate:对抗关系的结构化设计
定位:2 个 Agent,正方 vs 反方,3 轮辩论,展现对立立场。
设计亮点:
· 角色绑定而非观点绑定:提示词不对"赞同/反对"做具体观点预设,只给了"你代表正方"的角色设定。这很聪明——Agent 需要基于话题自行构建论据,而不是沿着预设的观点填空。
· 递进式提示词:第 1 轮是"立论"(提出 3-5 个要点,500 字),第 2-3 轮是"反驳+强化"(针对对方上一轮发言,400 字)。字数从 500 缩减到 400 的设计确保了辩论不会膨胀失控。
· 异步执行:辩论在后台执行,每轮结果作为独立消息推送,避免了长文本的阅读疲劳。
· 会后的完整 Markdown 文档:最后自动生成包含所有轮次观点的结构化文档,支持 /podcast 转为播客。
实际效果:从测试来看,辩论质量取决于 Agent 本身的能力,但辩论框架出色地完成了三个任务:确保了观点的对抗性(不会双方同意彼此)、确保了递进深度(每轮必须回应上一轮)、确保了可读性(分段推送、格式统一)。
- /chat:协作关系的自然对话设计
定位:2 个 Agent,友好聊天,5 轮(可调),深度探索一个话题。
与 /debate 的核心差异:
维度 /debate /chat
关系 对抗 协作
语气 正方/反方,逻辑严密 朋友聊天,自然友好
推进方式 反驳上一轮 回应对方的观点并扩展
收敛方向 展现对立 共同深入
最精妙的设计:对话历史的注入方式。
注意这个细节:当 Agent A 说话时,对话历史中的他人消息以对方的口吻呈现——Agent A 看到的是"Agent B: 之前说的内容",Agent B 看到的是"Agent A: 之前说的内容"。这看起来简单,但实际上维护了两个 Agent 各自的视角一致性。不是让两个 Agent 读同一个剧本,而是每人从自己的角度看到"对方说了什么"。
从测试案例(特朗普访华的讨论)来看,/chat 的效果远好于预期。两个 Agent 的对话不是"接力问答",而是真正的观点迭代和收敛:从调侃"公费旅游"开始,逐步深入到大国外交的"仪式与交易"双重叙事,最后收敛到"稳住而非突破"的共同判断。这种收敛不是设计出来的,是协作框架自然产生的涌现行为。
- /roundtable:探讨关系的结构化创新
这是 WeClaw 最新的功能,也是最具创新性的设计。
定位:3-5 个 Agent,1 个主持人 + 多个参与者,多轮探讨,自动生成结构化总结。
最核心的设计是"主持人"角色的引入。
主持人不参与观点讨论——它在每轮做三件事:收束上一轮的成果,提炼已有共识,然后抛出新的讨论方向。这解决了传统多人对话中最头疼的问题:讨论会发散失控,或者陷入同质化的"大家都说得有道理"的境地。
流程设计:
· 第 1 轮:主持人开场,提出讨论框架和核心问题(300 字)。参与者依次发表初始看法(300 字)。
· 中间轮:主持人做阶段性小结 + 引导新方向(200 字)。参与者基于完整讨论历史继续发言(300 字)。
· 最后一轮:主持人生成结构化总结——核心观点、共识之处、分歧之处、被忽略的角度、精彩摘录。参与者做结语感言(200 字)。
两种精彩对比:
测试中用同一个话题(MacBook Neo 的市场逻辑)跑了三场不同主持人的对比:
· Assistant 主持:讨论偏学术方法论——更早上探到"评价体系冲突""技术隐形化"这类顶层概念。总结像一篇精致的小论文。
· Grok 主持:讨论偏实战推演——追问生态溢价怎么量化、产品分层在安卓能不能复制。总结像一份商业策略纪要。
· DeepSeek 主持:讨论偏系统架构——开场就拆解"产品为谁而造、由谁定义好",追问边界条件("发烧友的隐性价值""定价心理锚点"),总结收敛为可验证的假设。
这揭示了过去评测无法观察到的深层机制:主持人不是在"控场",而是在设定整个讨论的"认知方向"。换一个主持人,同一群参与者会探索到完全不同的认知层面。
结果就是:换主持人不是在选谁更会说话,而是在选这一轮从哪个角度打开认知。这是把"视角切换"从个人努力变成了一键操作。
- /workflow:执行关系的 DSL 设计
定位:多 Agent 顺序/并行执行具体任务,支持步骤间引用和自动保存。
设计亮点:
· 声明式 DSL:用 step1、step2、parallel、branch、save 等关键字定义流程,简洁直观。
· 引用语法:@N 引用步骤 N 的输出,@N.B 引用步骤 N 的第 B 个并行分支。
· 并行分支:同一 step 内可以通过 branch 定义多个并行分支,结果自动合并。
· 自动保存到 Hub:通过 save 关键字自动将中间结果保存到 Hub,供后续步骤或外部 Agent 使用。
· 安全限制:最多 10 步、每步 3 分钟超时、并行分支最多 5 个。
对比 /debate / /chat / /roundtable 的本质差异:
Workflow 不是"讨论",是"执行"。它的输出不是观点,是任务完成结果。这种模式适用于已经有明确流程的重复性工作——比如代码审查分步骤(静态分析→安全扫描→生成报告)、内容生产流程(大纲→正文→校对)。
但 /workflow 目前有一个明显的局限:缺少条件分支和循环。当前的 DSL 只能描述静态流程,无法根据中间结果动态改变走向。如果未来能加入 if/else 和 loop,它将真正成为一个完整的 AI 编排脚本语言——但正如我们讨论过的,工具太完备反而容易变成另一种牢笼。
三、四种模式的体系化矩阵
WeClaw 的四种对话模式不是零散的feature,而是一个完整的思维协作体系:
命令 人数 关系 目标 收敛方式
/debate 2 对抗 展现对立立场 对立观点并存
/chat 2 协作 两人深度对话 观点迭代收敛
/roundtable 3-5 探讨 多角度探索 主持人结构化总结
/workflow N 执行 完成具体任务 步骤输出自动保存
这个矩阵覆盖了人类协作中的所有基本模式:对抗、合作、探索、执行。WeClaw 的野心不是做一个"更好的 ChatGPT",而是成为一个可编程的思维操作系统。
值得特别指出的是三种对话模式在"收敛"机制上的区别:
· /debate 不追求收敛——它刻意保持双方观点的对立性,最后靠人工整理或后续 /podcast 归档。
· /chat 有自然的观点迭代和收敛倾向——双方"像朋友聊天"的语气预设鼓励互相补充、逐步深入,而不是互相反驳、坚持己见。
· /roundtable 有显式的收敛机制——主持人在每轮做收束,最后一轮生成结构化总结,参与者做感言。
· /workflow 有执行状态的收敛——@N 语法引用前置步骤的产物,这个语法本身就强制了收敛方向:上游步骤的输出必须被下游使用。
这三种收敛方式没有优劣之分,只是适用于不同的认知任务。这正是"工具链"应有的设计——不是给你一把万能锤,而是给你一套工具箱,里面每样东西只做一件事并做好。
四、设计哲学
分析完所有功能后,WeClaw 的设计哲学变得清晰:
- 聊天框是交互终局
不是 WebUI,不是 App,不是 API playground。就是聊天框。这个返璞归真的选择意味着:输出需要适配微信显示(Markdown 转纯文本、4000 字符硬截断、代码块包裹)、交互必须是异步事件驱动的(/debate 启动后可以关屏幕等结果)、配置必须是纯文本文件(config.json,不需要 GUI)。
- AI 是后台进程,不是前台交互
传统 AI 产品让你盯着屏幕等回复。WeClaw 让你发出命令就关屏幕——AI 在后台像 cron job 一样运行,结果通过微信推送。这是 Unix 守护进程的哲学迁移。
- 编排权在你手上
AI 不替你做决策。它提供 @agent(路由)、/hub pipe(管道)、/debate(对抗)、/chat(对话)、/roundtable(探讨)、/workflow(脚本)这些原语,你用这些原语编程你的 AI 工作流。
- 克制即智慧
到目前为止,/workflow 还没有条件分支和循环,/roundtable 的主持人不能动态插话。这些不是"还没做",是"选择不做"。工具的边界感在这种自限中反而更清晰。
五、总结
WeClaw 的重心不在模型能力(那是上游厂商的事),也不在交互界面(那是微信的事),而在关系设计——让人和 AI 之间、AI 和 AI 之间,能像 Unix 管道一样组合,各取所长,形成协作网络。
这四个功能构建了一个完整的思维协作工具链:对抗看清两面,协作深入探索,圆桌多角度发散加系统收敛,工作流实现自动化编排。它们共享同样的交互模式(微信消息)、同样的上下文机制(Hub 文件系统)、同样的可组合性(通过 /hub pipe 串联),但各自在关系结构和收敛方式上有明确的分工。
在 AI 产品疯狂卷"更大模型、更花哨 UI、更多功能"的喧嚣中,WeClaw 的声音静得出奇,却有着极深的穿透力:它不是给你一个更好的大脑,而是给你一套让大脑们协作起来的方法。在所有人都在做加法时,它选择了四则运算——简单原语,无限组合。这是真正的设计自信,也是这个项目最大的价值。