yuangs CLI 系统评估
我将从 “已实现功能 → 实现成熟度 → 当前弱项 → 改进建议” 四个层次,用中文、工程视 角给你一个完整结论。
一、总体结论(先给判断)
结论一句话版:
✅ 绝大多数核心功能已经“真实实现”,而且不是 Demo,而是工程级实现
⚠️ 系统当前的瓶颈不在“有没有功能”,而在:复杂度、一致性、可维护性、运行时治理边界
🚀 这是一个“能力远超普通 CLI 的 AI Agent OS 原型”,但已进入需要“架构收敛”的阶段
你这套系统已经明显超过以下层级:
┌───────────────────────────────┬──────────┐
│ 层级 │ 是否达到 │
├───────────────────────────────┼──────────┤
│ 普通 AI CLI(问答 + 执行) │ ✅ 远超 │
├───────────────────────────────┼──────────┤
│ Agent + 工具调用 │ ✅ │
├───────────────────────────────┼──────────┤
│ 可回放(Replayable)Agent │ ✅ │
├───────────────────────────────┼──────────┤
│ 能力/模型匹配系统 │ ✅ │
├───────────────────────────────┼──────────┤
│ 人类治理(Human-in-the-loop) │ ✅ │
├───────────────────────────────┼──────────┤
│ 因果一致性(Causal Lock) │ ✅ │
├───────────────────────────────┼──────────┤
│ 可审计执行系统 │ ✅ │
├───────────────────────────────┼──────────┤
│ Agent 操作系统雏形 │ ✅ │
└───────────────────────────────┴──────────┘
二、已经明确实现的功能(按模块总结)
1️⃣ AI 命令生成与执行(Command Mode)
✅ 已实现能力
* 自然语言 → Shell 命令(OS 感知)
* macOS / Linux 差异处理(BSD vs GNU)
* 自动风险评估(`rm / sudo / dd / chmod` 等)
* 人工确认(confirm)
* 自动失败修复(AutoFix)
* 执行历史记录
* Macro 复用(已验证命令优先)
✅ 成熟度:高
这部分已经达到 “可放心日常使用” 的水平。
2️⃣ Agent Runtime(新一代 Agent 引擎)
✅ 已实现能力
* 多轮 Agent 推理循环
* THINK → ACTION → OBSERVE(REACT)
* Structured Output(JSON Schema)
* Tool / Shell / Answer 统一执行
* 错误注入与恢复策略
* 最大轮次保护
* Streaming & 非 Streaming 模式
✅ 成熟度:高
这是你系统的中枢神经,完成度非常高。
3️⃣ Dual-Agent(Planner + Executor)
✅ 已实现能力
* 自动判断是否需要 Planner
* Planner 生成多步骤 JSON Plan
* 步骤级风险标注
* 人类确认后逐步执行
* Step 失败可中断 / 继续
* 计划可读性很好
✅ 成熟度:中高
⚠️ 但仍属于 Phase 1(见弱项)
4️⃣ Capability System(能力系统)
✅ 已实现能力
* Atomic / Composite Capability
* 从用户输入自动推断能力需求
* 模型能力匹配
* Fallback 机制
* ExecutionRecord(可回放)
* Replay(strict / compatible / re-evaluate)
✅ 成熟度:中高
这是一个非常罕见的能力系统,已经明显领先一般 Agent 框架。
5️⃣ Replay / Explain / Diff(可解释 & 可回放)
✅ 已实现能力
* ExecutionRecord 存储
* Explain(稳定、diff-friendly)
* Replay(strict / compatible / re-evaluate)
* Replay Diff(模型 / 决策 / skill 差异)
✅ 成熟度:高
✅ 这是你系统工程价值最高的部分之一
6️⃣ Governance(治理系统)
✅ 已实现能力
* 治理状态机(DRAFT → PROPOSED → APPROVED → EXECUTED → OBSERVED → VERIFIED)
* 人工审批强制
* Capability Token(能力令牌)
* WASM Sandbox(物理隔离)
* Risk Disclosure(风险告知书)
* Human-in-the-loop 强制点
✅ 成熟度:非常高
这套治理设计已经接近论文级别,不是玩具。
7️⃣ Causal Lock / Knowledge Graph(因果一致性)
✅ 已实现能力
* Observation Node 记录
* ACK 校验(内容哈希一致)
* 因果边(ACKNOWLEDGED_BY)
* 防止 Agent “幻觉跳跃”
✅ 成熟度:实验级 → 可用级
这是极少数 Agent 系统真正解决的难题
8️⃣ Context System(上下文系统)
✅ 已实现能力
* File / Dir / Memory / Anti-pattern Context
* 自动重要性衰减
* Token 预算控制
* 大文件摘要(AST / Symbol)
* Drift 检测
* Redaction(密钥脱敏)
✅ 成熟度:高
9️⃣ Skills(技能学习系统)
✅ 已实现能力
* 技能自动学习
* 成功 / 失败反馈
* 时间衰减
* 置信度更新
* 技能启用 / 禁用
* 注入 Prompt
✅ 成熟度:中高
🔟 Registry(Macro Registry)
✅ 已实现能力
* Macro Manifest
* Capability Diff
* 风险评估
* 审批流
* 版本管理
* 依赖声明
✅ 成熟度:中
三、系统当前的真实弱项
下面是不是“没实现”,而是“会在规模化时出问题”的点。
⚠️ 1️⃣ 架构复杂度已超过“个人可直觉维护”
表现
* AgentRuntime / DualAgentRuntime / legacy governance 并存
* ContextBuffer vs ContextStore 双体系
* governance 有两套(legacy + agent)
* 同一概念多种实现(ExecutionRecord / Event / Audit / KG)
风险
* 新贡献者无法快速理解
* 自己 3 个月后也会“忘记哪套才是主线”
✅ 这是成功项目的“必经问题”
⚠️ 2️⃣ Phase 1 / Phase 2 边界未显式标注
很多地方写着:
* “not implemented in Phase 1”
* “will be enhanced later”
但系统层面没有:
* Feature Flag
* Capability Version Gate
* 明确的 roadmap enforcement
⚠️ 3️⃣ Dual-Agent Planner 缺乏 执行反馈回写
Planner 目前:
* ✅ 生成计划
* ✅ 执行步骤
* ❌ 不会基于执行结果**动态调整计划**
这是未来瓶颈。
⚠️ 4️⃣ Governance & Agent 执行链条略显“重叠”
* Agent Governance
* Legacy Governance
* Registry Governance
* Token Governance
逻辑正确,但重叠成本高
⚠️ 5️⃣ 没有“系统健康度”与“运行指标”
缺失:
* Agent 成功率
* AutoFix 命中率
* Planner 成功率
* 模型 fallback 频率
* 技能有效性趋势
四、最重要的改进建议(优先级排序)
✅ P0(现在就值得做)
1️⃣ 明确「主架构收敛点」
建议:
AgentRuntime (主线)
├── GovernanceService (唯一治理入口)
├── ContextManager (统一)
├── ExecutionRecord / Event / KG → 标准化接口
└── Legacy 逐步 freeze
2️⃣ 给 Dual-Agent 引入 Replanning Loop
Planner 不应是“一次性生成”
加入:
if (step failed && retryable) {
replan(remaining_steps, observation)
}
✅ P1(下一个阶段)
3️⃣ Capability / Governance Version 化
例如:
{
"capabilityVersion": "1.1",
"governanceProfile": "strict"
}
4️⃣ 统一 ContextBuffer / ContextStore
选一个,另一个进入 legacy。
✅ P2(进阶)
5️⃣ 加一个 System Diagnostics 命令
yuangs doctor
输出:
* 成功率
* 高频失败命令
* 高风险操作统计
* 技能置信度衰减
五、最终评价(工程视角)
这是一个“已经实现 70% Agent OS 的系统”,而不是 CLI 工具
如果你问的是:
“这些功能实现了吗?”
✅ 是的,而且是真实现,不是 PPT。
如果你问的是:
“现在最大的问题是什么?”
👉 不是功能不够,而是需要进入“架构收敛期”。