摘要
2026年初,一个名为OpenClaw的开源项目在GitHub上创造了历史。发布仅48小时便斩获10万stars,60天内突破15.7万stars,成为GitHub历史上增长最快的开源项目。这个数字背后,是无数开发者对"真正个人AI助手"的渴望——一个能常驻后台、持续记忆、自主执行任务的智能伙伴,而非每次对话都要重新介绍的"陌生人"。
然而,爆炸式增长的背后是残酷的现实:大多数普通用户面对OpenClaw时,就像手里握着一把宝剑却不知如何出鞘。官方文档偏向开发者,社区讨论散落各处,缺乏系统化的中文配置指南和人格养成方法论。用户们在Discord和Reddit上反复询问同一个问题:"我已经安装好了,然后呢?"
本文正是为解决这个问题而生。我们将基于OpenClaw独特的配置文件体系——SOUL.md、IDENTITY.md、USER.md、AGENTS.md、MEMORY.md——构建一套系统化的方法论,帮助你从零开始,逐步构建属于自己的AI人格系统。这不仅仅是技术教程,更是一场关于"如何让AI真正成为你"的深度探索。
我们的终极目标可以用四个字概括:人剑合一。在这个语境下,"剑"是OpenClaw这个强大的AI工具,"人"是你独特的工作习惯、思维方式和价值偏好。当二者高度契合时,AI不再是冷冰冰的工具,而是进化为你的数字分身——它知道你习惯几点处理邮件、了解你写代码时的命名偏好、记得你上周提到的那个待办事项。这不是科幻,而是OpenClaw通过持久人格、跨会话记忆和深度定制能力所能实现的现实。
第1章 开篇:为什么你需要OpenClaw
1.1 AI助手的"灵魂容器"困境
如果你经常使用ChatGPT、Claude或其他AI助手,一定经历过这样的场景:打开一个新的对话窗口,深吸一口气,开始输入那段你已经重复了无数次的自我介绍——"我是一名产品经理,主要负责B端SaaS产品,我的团队有5个人,我们使用敏捷开发流程,我的技术背景是……"然后才能进入正题。而当你关闭浏览器、第二天重新打开时,一切又要从头再来。
这就是当前AI工具的第一大痛点:每次对话都是一次重新相识。AI助手就像一个患有严重失忆症的助手,你们昨天建立的所有默契、讨论的所有背景、达成的所有共识,都随着会话结束而烟消云散。根据一项针对知识工作者的调研,平均每个用户每天要在AI对话中重复介绍自己2.3次,累计浪费超过20分钟。这些碎片化的重复劳动,累积起来就是巨大的效率黑洞。
第二大痛点是上下文像金鱼记忆般短暂。即使在同一次对话中,当讨论变得复杂、涉及多个文件或长文档时,AI助手常常会"遗忘"对话早期的重要内容。Claude Code虽然拥有20万token的上下文窗口 ,但面对大型代码库时仍可能丢失关键信息。更遑论那些跨会话的、需要持续数天甚至数周才能完成的任务——比如跟踪一个长期项目的进展、管理一段持续的人际关系、或者培养一个渐进式的写作计划。
第三大痛点最为深层:无法形成稳定的AI人格。当你使用不同的AI工具时,每个工具都有自己的"性格"——有的过于正式,有的过于随意,有的喜欢长篇大论,有的过于简略。你无法让它们统一成你喜欢的沟通风格,更无法让它们"记住"你偏好的表达方式、决策逻辑和价值取向。你被迫适应工具的脾气,而非让工具适应你的习惯。
一位OpenClaw早期用户在社区中这样描述自己的感受:"手里有一把宝剑,但不知道如何发挥能力。看着别人用它自动化处理邮件、管理日程、甚至自动写代码,我却连让它记住我的名字都做不到。"这种挫败感在AI工具用户中极为普遍。根据GitHub社区调研,超过67%的OpenClaw新用户在安装后的第一周内放弃使用,主要原因就是"不知道下一步该做什么" 。
这种困境背后,是一个巨大的市场空白。市面上充斥着各种AI工具的功能介绍和快速入门教程,但缺乏系统化的人格养成方法论。没有人告诉你如何通过配置文件塑造AI的性格,如何通过记忆系统建立长期关系,如何通过技能插件扩展AI的能力边界。OpenClaw提供了强大的基础设施——持久记忆、多通道集成、技能系统、本地部署——但缺少一份将这些能力串联起来的地图。
这正是本文试图填补的空白。
1.2 OpenClaw是什么
要理解OpenClaw的独特之处,我们需要先了解它的起源故事。
2025年11月,一位名叫Peter Steinberger的奥地利软件工程师,用一个小时写出了一个原型程序。他将一个聊天应用连接到Claude Code,创造出了后来被称为"Clawdbot"的东西。这个名字是一个双关——既借用了Anthropic的Claude模型,又暗指龙虾的螯(Claw),这正是Claude Code加载界面中那只标志性龙虾的灵感来源。
Steinberger并非无名之辈。他是PSPDFKit的创始人——这是一家专注于iOS PDF框架的公司,在2021年获得了Insight Partners 1亿欧元的投资。在iOS/macOS开发领域深耕20年后,他本已半退隐,直到AI的浪潮将他重新拉回战场。
这个周末项目很快展现出了惊人的生命力。2026年1月25日,项目公开发布,首日便获得9000个GitHub stars。72小时后,这一数字突破6万,第二天单日增长超过1.6万stars。科技媒体开始用"GitHub历史上增长最快的仓库"来形容它。1月30日,项目正式更名为OpenClaw,同一天突破10万stars大关。到2月初,OpenClaw已经积累了超过14.5万stars和2万个forks。
项目名称的变迁本身就是一段有趣的插曲。最初的"Clawd"因与"Claude"过于相似,收到了Anthropic法务团队的更名请求。社区在凌晨5点的Discord头脑风暴会议中,将其改名为"Moltbot"(取龙虾蜕壳成长之意),但这个名称"读起来总是不顺口" 。最终在1月30日,经过商标清查的"OpenClaw"正式定名——"Open"呼应其开源本质,"Claw"延续了甲壳类动物的传统。
那么,OpenClaw究竟是什么?
从功能层面看,OpenClaw是一个本地自托管的AI个人智能助手。它运行在你自己的设备上(可以是个人电脑、服务器或云端虚拟机),通过WhatsApp、Telegram、Slack、Discord、iMessage等熟悉的通讯应用与你交互。你可以像给朋友发消息一样给它下达指令——"总结我今天的邮件"、"帮我把上周的会议录音整理成要点"、"提醒我周五下午3点给王总打电话"——它会理解你的意图,并在后台自主执行。
从技术架构看,OpenClaw由三个核心组件构成:模型层、工具层和权限层。模型层负责理解和推理,你可以接入Claude、GPT-5、Gemini等云端模型,也可以通过Ollama运行本地模型。工具层通过MCP(Model Context Protocol)协议与外部服务交互,实现文件操作、网页浏览、API调用等功能。权限层决定了AI能做什么、不能做什么——你可以授予它只读权限让它成为研究助手,也可以授予它写入权限让它成为自动化代理。
从能力边界看,OpenClaw的核心能力可以归纳为六个维度:
能力维度 具体表现 典型应用场景
工具链编排 搜索→提取→转换→写入→验证的自动化流程 每日信息聚合报告
定时任务执行 按计划重复运行工作流 每周数据备份、每日待办提醒
系统级控制 文件管理、脚本执行、本地数据库操作 自动化文件整理
多源上下文整合 从文档、代码库、工单、表格中提取并关联信息 项目进度综合分析
自定义技能扩展 通过插件机制添加新功能 集成内部业务系统
持久记忆与上下文 跨会话保留用户偏好和历史交互 长期项目跟踪
表1:OpenClaw核心能力矩阵
这些能力共同构成了OpenClaw与传统AI助手的本质区别。ChatGPT Agent、Claude Code等工具虽然也能执行部分任务,但它们的设计哲学截然不同:ChatGPT Agent需要显式用户确认才能执行敏感操作,而OpenClaw可以在设定目标和权限后完全自主运行;Claude Code专注于代码辅助,而OpenClaw覆盖邮件、日程、浏览器、文件系统等全场景;更重要的是,OpenClaw的持久记忆系统让它能够积累对你的理解,逐步形成稳定的"人格"。
那么,谁适合使用OpenClaw?
效率追求者——如果你每天花费大量时间在重复性工作上,比如邮件分类、日程协调、信息检索,OpenClaw可以成为你的自动化助手。知识工作者——如果你需要处理大量信息、跨多个来源整合知识、持续跟踪项目进展,OpenClaw的持久记忆和多源整合能力将大幅提升你的认知带宽。AI工具探索者——如果你想深入了解AI代理的工作原理、探索人机协作的新模式,OpenClaw的开源架构提供了绝佳的实验场。技术爱好者——如果你喜欢 tinkering、享受配置和优化的过程,OpenClaw丰富的自定义选项将让你乐此不疲。
当然,OpenClaw并非万能。它需要一定的技术门槛来完成初始部署,需要持续投入来维护和优化,需要谨慎配置来确保安全。但正如一位社区成员所说:"OpenClaw不是给想'设置好就忘'的人用的,它是给愿意与AI建立长期关系的人用的。"
1.3 本文能给你带来什么
面对OpenClaw这样一个功能强大但上手门槛不低的工具,许多用户陷入了"教程地狱"——看了无数个快速入门视频,却依然不知道如何将OpenClaw真正融入自己的工作流。本文的目标是带你走出这个困境,提供一条从"会用"到"精通"的完整进阶路径。
路径的第一阶段是部署。我们将手把手指导你完成OpenClaw的安装和初始配置,包括环境准备、依赖安装、模型接入、通讯渠道连接等关键步骤。这不是简单的命令复制粘贴,而是让你理解每一步背后的原理——为什么要这样配置、不同选项的权衡是什么、遇到问题如何排查。
路径的第二阶段是配置。这是本文的核心内容。我们将深入解析OpenClaw独特的配置文件体系:
SOUL.md——定义AI的核心人格、价值观和行为准则
IDENTITY.md——配置AI的身份信息、专业领域和沟通风格
USER.md——描述用户画像、偏好习惯和期望的交互方式
AGENTS.md——设置代理角色、任务分工和协作逻辑
MEMORY.md——管理记忆结构、保留策略和检索机制
这五个配置文件构成了OpenClaw人格养成的骨架。我们将提供完整的模板和详细的注释,让你可以根据自己的需求进行调整。更重要的是,我们会解释"为什么"——为什么SOUL.md要放在最前面、为什么USER.md对个性化至关重要、为什么MEMORY.md的设计直接影响AI的"聪明程度"。
路径的第三阶段是实战。我们将通过一系列真实场景的案例,展示OpenClaw如何解决实际问题:自动化邮件处理、智能日程管理、会议摘要生成、网页信息监控、代码辅助开发等。每个案例都会提供完整的配置示例和操作步骤,你可以直接复制使用,也可以根据自己的需求进行修改。
路径的第四阶段是优化。当OpenClaw基本运行起来后,如何让它变得更"懂你"?我们将探讨记忆系统的调优、技能插件的开发、多代理协作的设计、成本控制的策略等进阶话题。这些内容的目的是让你的OpenClaw从"能用"进化到"好用",最终达到"离不开"。
路径的第五阶段是哲学。这可能是本文最具价值的部分。我们将探讨"人剑合一"的深层含义——如何让AI真正成为你的数字分身。这涉及到一个根本性的问题:你希望AI成为什么样的人?是高效但冷漠的执行者,还是温暖但可能不够高效的伙伴?是严格遵循指令的工具,还是能够主动提出建议的顾问?这些问题没有标准答案,但思考它们的过程,本身就是一次关于自我认知的旅程。
最终,我们追求的"人剑合一"境界可以这样描述:当你与OpenClaw交互时,不再需要解释背景、重复偏好、纠正误解。它知道你习惯在早上8点浏览行业新闻,知道你写邮件时喜欢简洁直接的文风,知道你遇到技术问题时会先尝试自己解决再寻求帮助。它不会完全替代你的思考,但会接管那些重复性的认知劳动,让你把精力集中在真正需要人类创造力的地方。
这不是遥不可及的未来。OpenClaw的技术架构已经为实现这一目标提供了可能。接下来的章节,我们将一步步向你展示如何构建属于自己的"人剑合一"系统。
第2章 快速部署与初体验
经过第1章的介绍,相信你已经对OpenClaw有了初步认识。本章将带你完成从零开始的完整部署流程,无论你使用的是Windows、macOS还是Linux系统,都能在30分钟内让OpenClaw运行起来。我们将详细介绍三种部署方式,并提供详细的步骤指导和常见问题解决方案。
2.1 部署前的准备工作
2.1.1 硬件与系统要求
OpenClaw的硬件要求源于其底层Node.js运行时的内存管理机制。根据官方文档和实际部署经验,以下是详细的系统要求:
配置项 最低要求 推荐配置 说明
CPU 1 vCPU 2 vCPU+ 计算需求不高,主要瓶颈在I/O和API调用等待
RAM 2 GB 4 GB+ Node.js V8引擎默认堆内存限制约1.5-2GB,低于此值会导致频繁崩溃
存储 5 GB 20 GB+ 基础安装约500MB,含日志和媒体缓存建议预留10GB
网络 稳定互联网连接 低延迟网络 需要持续连接AI提供商API和消息平台
操作系统 Linux/macOS/Windows WSL2 Ubuntu 22.04+ Windows需通过WSL2运行
关于内存的重要说明:官方最低配置标注为1GB RAM,但实际测试表明,1GB配置在npm安装阶段就会因内存不足而失败。一位GitHub用户反馈,其1GB的DigitalOcean droplet甚至无法完成基础安装,必须先添加2GB交换分区才能继续。因此,2GB RAM是实际可用的最低门槛,4GB RAM才能确保流畅运行。
交换分区的陷阱:虽然添加swap可以防止系统崩溃,但磁盘I/O速度远低于内存访问。依赖swap运行的OpenClaw会变得"能活但不快乐"——响应延迟从毫秒级延长到秒级。建议将swap仅作为应急缓冲,而非长期解决方案。
2.1.2 必要工具安装清单
根据部署方式的不同,需要准备以下工具:
通用必备工具:
工具 版本要求 用途 安装命令(Ubuntu/Debian)
Git 2.30+ 克隆源码 sudo apt install git
Node.js 22.x+ 运行时环境 curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash - && sudo apt install nodejs
npm/pnpm 10.x+ 包管理器 npm install -g pnpm
Docker部署额外需求:
工具 版本要求 安装命令
Docker Engine 24.x+ curl -fsSL https://get.docker.com | sh
Docker Compose 2.x+ 随Docker Engine一同安装
验证安装:
检查Node.js版本
node --version # 应显示 v22.x.x 或更高
检查npm版本
npm --version # 应显示 10.x.x 或更高
检查Docker版本(如使用Docker部署)
docker --version
docker compose version
2.1.3 API密钥获取指南
OpenClaw支持多种AI模型提供商,以下是主流平台的API密钥获取方式 (Future Humanism) :
Anthropic Claude(推荐):
访问 console.anthropic.com
注册/登录账号,完成手机号验证
进入"Settings" → "Billing",绑定支付方式并充值(建议首次充值$10)
点击"Get API Keys" → "Create Key"
命名密钥(如"OpenClaw-Production"),复制生成的sk-ant-...格式密钥
定价参考(2026年2月) (lilys.ai) :
Claude Sonnet 4.5:输入3/百万token,输出15/百万token
Claude Opus 4.5:输入15/百万token,输出75/百万token
OpenAI:
访问 platform.openai.com
进入"API Keys" → "Create new secret key"
设置密钥名称和权限范围,复制生成的sk-...格式密钥
OpenRouter(多模型聚合):
访问 openrouter.ai
注册账号,进入"Keys"页面
创建API Key,格式为sk-or-...
优势:一个密钥可同时调用Claude、GPT、Gemini等多个模型
国内替代方案:
提供商 控制台地址 特点
通义千问 http://dashscope.aliyun.com 中文理解能力强,价格较低
Moonshot http://platform.moonshot.cn 长文本处理能力突出
DeepSeek http://platform.deepseek.com 代码能力优秀,性价比高
成本预估:个人轻度使用(日均50-100次交互)月费用约5-15;重度使用(日均300+次交互)月费用约30-50 。建议在提供商控制台设置消费上限,避免意外账单。
2.2 三种部署方式详解
2.2.1 Docker一键部署(推荐新手)
Docker部署是最简单、最隔离的部署方式,官方提供了自动化安装脚本 。
适用场景:
初次接触OpenClaw的新用户
需要快速验证功能
希望最小化环境依赖冲突
部署步骤:
步骤1:执行一键安装脚本
curl -fsSL https://openclaw.ai/install.sh | bash
预期输出:
Installing OpenClaw...
✓ Node.js version check passed (v22.x.x)
✓ Installing openclaw globally...
✓ OpenClaw installed successfully!
Starting onboarding wizard...
步骤2:创建Docker Compose配置
在项目目录创建docker-compose.yml文件:
services:
openclaw-gateway:
image: openclaw/openclaw:latest
container_name: openclaw-gateway
environment:
-
OPENCLAW_GATEWAY_TOKEN=${OPENCLAW_GATEWAY_TOKEN}
-
ANTHROPIC_API_KEY=${ANTHROPIC_API_KEY}
-
OPENAI_API_KEY=${OPENAI_API_KEY}
volumes:
-
./data/.openclaw:/home/node/.openclaw
-
./data/clawd:/home/node/clawd
ports:
-
"127.0.0.1:18789:18789"
-
"127.0.0.1:18790:18790"
restart: unless-stopped
command: ["node", "dist/index.js", "gateway", "--bind", "lan"]
步骤3:创建环境变量文件
创建.env文件:
Gateway认证令牌(自动生成或自定义)
OPENCLAW_GATEWAY_TOKEN=your-secure-random-token-here
AI提供商API密钥(至少配置一个)
ANTHROPIC_API_KEY=sk-ant-xxxxx
OPENAI_API_KEY=sk-xxxxx
步骤4:启动容器
拉取最新镜像
docker compose pull
后台启动服务
docker compose up -d
查看运行状态
docker compose ps
查看日志
docker compose logs -f
步骤5:验证部署
检查网关健康状态
curl -s http://localhost:18789/health
预期返回:{"status":"healthy","version":"x.x.x"}
2.2.2 本地源码部署(开发者首选)
源码部署提供最大的灵活性和控制权,适合需要深度定制或参与开发的场景 。
适用场景:
需要修改源码或开发插件
追求最佳性能表现
熟悉Node.js生态系统
部署步骤:
步骤1:克隆源码仓库
克隆官方仓库
git clone https://github.com/openclaw/openclaw.git
cd openclaw
切换到稳定分支(推荐)
git checkout main
步骤2:安装依赖
使用pnpm(推荐)
npm install -g pnpm
pnpm install
或使用npm
npm install
预期输出:
Packages: +2847
++++++++++++++++++++++++++++++++++++++++++++++++++
Progress: resolved 2847, reused 2847, downloaded 0, added 2847, done
步骤3:构建项目
完整构建
pnpm build
预期输出:
✓ Building packages...
✓ dist/ directory created
步骤4:启动配置向导
启动交互式配置向导
openclaw onboard --install-daemon
向导将引导你完成:
AI提供商选择(Anthropic/OpenAI/本地模型)
API密钥配置
消息平台连接(可选)
Gateway启动
步骤5:启动Gateway
前台启动(调试用)
openclaw gateway start
或使用systemd托管(生产环境)
systemctl --user enable --now openclaw-gateway
2.2.3 云端部署方案
云端部署提供7×24小时在线服务,适合需要随时访问的场景 。
主流云平台一键部署选项:
平台 月费用 配置 特点
Railway $5-10 自动扩展 纯Web界面,无需SSH,最简单 [(Side Comparison 2026
Contabo $4.95 3vCPU/8GB/75GB 性价比最高,预装OpenClaw [(Side Comparison 2026
DigitalOcean $20 2vCPU/4GB 安全加固,企业级 (http://progressiverobot.com)
Hostinger $4.99 1vCPU/4GB/50GB Docker模板一键部署 (WPism)
Hetzner ~$4.10 2vCPU/4GB/40GB 欧洲优质网络 [(Side Comparison 2026
以Hostinger为例的部署流程 (WPism) :
步骤1:购买VPS并安装Docker Manager
登录Hostinger hPanel,选择KVM 1或更高配置
进入VPS管理面板 → Docker → Docker Manager
点击安装,等待2-3分钟完成
步骤2:部署OpenClaw模板
在Docker Manager中打开"Catalog"标签
搜索"OpenClaw",点击模板
点击"Deploy"按钮
步骤3:配置环境变量
OPENCLAW_GATEWAY_TOKEN: [自动生成,请妥善保存]
ANTHROPIC_API_KEY: [你的Claude API密钥]
OPENAI_API_KEY: [可选,你的OpenAI API密钥]
步骤4:完成部署
等待状态变为"Running"(约1-2分钟)
点击提供的链接访问OpenClaw Dashboard
使用Gateway Token登录
2.2.4 部署方式对比表
对比维度 Docker一键部署 本地源码部署 云端部署
部署难度 ⭐ 简单(5分钟) ⭐⭐⭐⭐ 复杂(30分钟+) ⭐ 简单(5分钟)
维护成本 低(自动更新) 高(手动维护) 极低(托管服务)
性能表现 良好(容器开销~5%) 最优(原生运行) 取决于云配置
灵活性 中等(预配置) 最高(完全可控) 较低(受限于平台)
安全性 高(容器隔离) 中(依赖主机安全) 高(云平台加固)
适用人群 新手、快速验证 开发者、深度用户 需要7×24在线
月成本 0(自有设备) $5-20
选择建议:
新手入门:选择Docker一键部署或Hostinger云端部署
开发者:选择本地源码部署,便于调试和定制
生产环境:选择DigitalOcean或Railway等托管云服务
2.3 首次配置与引导向导
2.3.1 启动配置向导
OpenClaw提供了交互式配置向导openclaw onboard,大幅简化了初始设置流程 (tirnav.com) 。
启动向导:
完整安装模式(推荐)
openclaw onboard --install-daemon
仅配置模式(不安装系统服务)
openclaw onboard
向导流程说明:
╔════════════════════════════════════════╗
║ Welcome to OpenClaw Onboarding ║
╚════════════════════════════════════════╝
Step 1/4: AI Provider Configuration
? Select your AI provider:
▸ Anthropic Claude (Recommended)
OpenAI GPT
Google Gemini
Local Model (Ollama)
OpenRouter (Multi-provider)
Step 2/4: Authentication
? Enter your Anthropic API key: [hidden]
✓ API key validated successfully
Step 3/4: Messaging Channels (Optional)
? Configure messaging channels now? (Y/n)
Step 4/4: Gateway Setup
? Gateway bind mode: lan
? Gateway port: 18789
✓ Gateway started successfully
🎉 Setup complete! Access your dashboard at:
2.3.2 选择AI后端和认证方式
OpenClaw支持多种AI后端配置方式 :
方式一:API Key认证(推荐)
在向导中选择"API Key"选项
或直接配置
openclaw config set env.ANTHROPIC_API_KEY "sk-ant-xxxxx"
方式二:Claude订阅Token(已有订阅用户)
如果你已有Claude Pro/Max订阅,可通过Claude Code CLI生成setup-token:
安装Claude Code CLI
npm install -g @anthropic-ai/claude-code
登录并生成token
claude login
claude setup-token
在OpenClaw向导中选择"Anthropic token"选项,粘贴生成的token
方式三:多模型配置
// ~/.openclaw/openclaw.json
{
"models": {
"default": "anthropic:claude-sonnet-4.5",
"routing": {
"coding": "anthropic:claude-opus-4.5",
"quick": "openai:gpt-4o-mini"
}
},
"env": {
"ANTHROPIC_API_KEY": "sk-ant-xxxxx",
"OPENAI_API_KEY": "sk-xxxxx"
}
}
2.3.3 配置消息平台
OpenClaw支持12+消息平台,以下是主流平台的配置方法 :
Telegram配置:
1. 在Telegram中联系@BotFather,创建新Bot
2. 获取API Token(格式:123456789:ABCdefGHIjklMNOpqrsTUVwxyz)
3. 配置OpenClaw
openclaw channels add --channel telegram --token "YOUR_BOT_TOKEN"
4. 验证连接
openclaw channels status telegram
WhatsApp配置:
使用QR码配对
openclaw channels login whatsapp
扫描终端显示的QR码
等待"Connected"状态确认
Discord配置:
1. 访问Discord Developer Portal创建Bot
2. 获取Bot Token
3. 配置OpenClaw
openclaw channels add --channel discord --token "YOUR_BOT_TOKEN"
4. 邀请Bot加入服务器(需要Manage Messages权限)
飞书配置(国内用户):
1. 在飞书开放平台创建企业自建应用
2. 获取App ID和App Secret
3. 配置Webhook和事件订阅
openclaw channels add --channel feishu \
--app-id "cli_xxxxx" \
--app-secret "xxxxx"
支持的平台列表:
平台 协议 特点
Telegram Bot API 最稳定,功能最完整
WhatsApp Baileys QR登录,支持群组
Discord discord.js 社区管理首选
Slack Bolt 企业协作
Signal signal-cli 隐私加密
iMessage macOS原生 仅macOS支持
飞书 Open API 国内办公首选
钉钉 Open API 国内企业常用
QQ go-cqhttp 个人用户
2.3.4 完成配对验证
配置完成后,需要完成配对验证才能开始使用 :
步骤1:获取配对码
查看Gateway状态
openclaw gateway status
预期输出:
Gateway: running
URL: http://localhost:18789
Pairing Code: XXXX-XXXX
步骤2:在消息平台授权
打开已配置的消息平台(如Telegram)
找到OpenClaw Bot的对话窗口
发送配对码:/pair XXXX-XXXX
收到确认消息:"✅ Device paired successfully"
步骤3:开始对话
发送测试消息验证连接:
用户: 你好,OpenClaw
OpenClaw: 你好!我是OpenClaw,已成功连接。有什么可以帮助你的吗?
2.4 部署常见问题排查
2.4.1 端口冲突解决方案
OpenClaw默认使用两个端口:
18789:Gateway主端口(WebSocket + HTTP)
18790:Bridge端口(Node连接,新版已合并至Gateway)
诊断端口占用:
Linux/macOS
lsof -i :18789
Windows
netstat -ano | findstr :18789
解决方案一:停止占用进程
找到占用进程ID(PID)后
kill -9 <PID> # Linux/macOS
taskkill /PID <PID> /F # Windows
解决方案二:修改OpenClaw端口
修改Gateway端口
openclaw config set gateway.port 18889
重启Gateway生效
openclaw gateway restart
Docker部署的端口映射:
docker-compose.yml 中修改端口映射
ports:
- "127.0.0.1:18889:18789" # 主机18889映射到容器18789
2.4.2 依赖安装失败处理
问题1:Node.js版本不兼容
错误信息:Error: Node.js version must be >= 22.0.0
解决方案:使用nvm切换版本
nvm install 22
nvm use 22
或使用n
npm install -g n
n 22
问题2:npm安装超时/失败
切换国内镜像源
npm config set registry https://registry.npmmirror.com
或使用pnpm(更快更稳定)
npm install -g pnpm
pnpm install
问题3:网络代理问题
配置代理
export HTTP_PROXY=http://127.0.0.1:7890
export HTTPS_PROXY=http://127.0.0.1:7890
对特定命令使用代理
HTTPS_PROXY=http://127.0.0.1:7890 npm install
问题4:权限不足
修改npm全局安装目录权限
sudo chown -R $(whoami) ~/.npm
或使用npx免安装运行
npx openclaw onboard
2.4.3 连接测试与验证
完整诊断流程 (AI Free API) :
步骤1:自动修复尝试
openclaw doctor --fix
步骤2:完整状态检查
openclaw status --all
步骤3:模型提供商状态
openclaw models status
预期输出示例:
$ openclaw status --all
OpenClaw Status Report
======================
Gateway: ✅ Running (PID: 12345)
Version: 2.15.3
Uptime: 2h 34m
Channels:
telegram: ✅ Connected
whatsapp: ⏳ Connecting...
discord: ❌ Not configured
Providers:
anthropic: ✅ Valid (cooldown: 0s)
openai: ✅ Valid
Storage:
Config: ~/.openclaw/ (234 MB)
Workspace: ~/clawd/ (1.2 GB)
Health Check: ✅ All systems operational
Gateway健康检查命令:
HTTP健康检查
curl -s http://localhost:18789/health | jq
WebSocket连接测试
wscat -c ws://localhost:18789/ws
查看详细日志
openclaw logs --follow
常见错误代码速查 (AI Free API) :
错误代码 含义 解决方案
EADDRINUSE 端口被占用 更换端口或停止占用进程
1008 Token不匹配 检查OPENCLAW_GATEWAY_TOKEN配置
ECONNREFUSED 连接被拒绝 检查Gateway是否运行
ETIMEDOUT 连接超时 检查网络连接和防火墙设置
ENOMEM 内存不足 增加RAM或添加swap分区
获取帮助的渠道:
官方文档:docs.openclaw.ai
GitHub Issues:github.com/openclaw/openclaw/issues
Discord社区:discord.gg/openclaw
诊断命令:openclaw doctor --verbose
完成本章的部署和配置后,你的OpenClaw实例应该已经正常运行。下一章将深入讲解OpenClaw的配置文件体系,帮助你进一步优化和定制你的AI助手。
第3章 配置文件体系总览
在完成OpenClaw的部署后,您已经拥有了一个功能完整的AI助手。然而,要让这个助手真正成为"您的"助手——具备独特的性格、专业的能力和持久的记忆——您需要理解并掌握OpenClaw的配置文件体系。本章将为您揭开这一体系的神秘面纱,从宏观视角理解各配置文件的作用、协作关系与编写原则。
3.1 为什么需要配置文件体系
3.1.1 从临时提示到持久人格:解决"每次重新介绍"的痛点
想象这样一个场景:您正在使用一个通用的AI助手进行编程工作。每次开始新对话,您都需要重新介绍自己的技术背景、偏好的代码风格、项目的架构约束。这种重复性的"自我介绍"不仅效率低下,更无法让AI真正"了解"您。
传统的大语言模型交互模式存在三个根本性问题:
状态不可持续性:每次对话都是独立的上下文窗口,之前的交流成果无法自动延续 (AI Free API) 。正如人类需要记忆来构建连续的身份认同,AI助手也需要持久化的配置来保持一致的行为模式。
人格碎片化:缺乏统一配置时,AI的响应风格会随着对话主题、用户表达方式甚至随机因素而波动。今天它可能表现得专业严谨,明天却变得随意散漫。
能力边界模糊:没有明确的角色定义和能力配置,AI往往在不该介入的领域过度发挥,在真正需要专业支持的环节却显得力不从心。
OpenClaw的配置文件体系正是为了解决这些痛点而设计。通过将人格特质、专业能力、用户偏好和记忆系统分离到不同的配置文件中,您可以构建一个"开箱即用"的个性化AI助手——它记得您是谁,知道该如何与您协作,并且始终保持一致的价值观和行为准则。
3.1.2 配置文件的加载机制:启动时读取→注入系统提示→影响所有对话
理解配置文件的工作原理,需要把握三个关键环节:
启动时读取:当OpenClaw初始化时,它会按照预定的优先级顺序扫描并加载所有配置文件。这个过程类似于操作系统启动时加载配置文件——一旦完成,系统就具备了运行所需的全部上下文 。
系统提示词注入:加载的配置内容会被整合成结构化的系统提示词(System Prompt),注入到与LLM的每次交互中。研究表明,系统提示词作为"持久性指令层",能够确保AI在整个对话过程中保持行为一致性 。
全生命周期影响:一旦配置生效,它将持续影响所有后续对话,直到被显式修改或覆盖。这种设计确保了AI助手的人格稳定性和可预测性。
配置文件加载流程:
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ 启动扫描配置 │ → │ 解析并合并内容 │ → │ 生成系统提示词 │
└─────────────────┘ └─────────────────┘ └─────────────────┘
↓
┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ 持续影响对话 │ ← │ 注入每次请求 │ ← │ 传递给LLM引擎 │
└─────────────────┘ └─────────────────┘ └─────────────────┘
3.1.3 各文件之间的协作关系:灵魂→身份→用户→能力→记忆的完整闭环
OpenClaw的配置文件体系采用分层架构设计,各文件之间形成清晰的依赖与协作关系:
SOUL.md(灵魂层)位于最顶层,定义AI的核心价值观和行为准则。它是所有其他配置的"宪法"——无论身份如何变化、用户如何切换,AI都不应违背其灵魂层面的基本原则。
IDENTITY.md(身份层)在灵魂框架下定义AI的具体角色定位。一个AI可以拥有多重身份(如"技术顾问"和"写作助手"),但所有身份都必须与SOUL.md中的价值观保持一致。
USER.md(用户层)描述AI需要服务的用户画像。这包括用户的专业背景、沟通偏好、已知技能盲区等信息,使AI能够提供真正个性化的服务。
AGENTS.md(能力层)定义AI可以调用的专业能力和工作流。这些能力是在IDENTITY.md角色框架下的具体实现,决定了AI"能做什么"。
MEMORY.md(记忆层)和日志系统共同构成AI的"记忆宫殿"。它们存储对话历史、用户偏好演变、项目上下文等信息,使AI能够"记得"过去、"理解"现在、"预测"未来 (laozhang.ai) 。
这五层配置形成一个完整的闭环:灵魂指导身份,身份服务用户,用户触发能力,能力产生记忆,记忆又反过来丰富对用户和身份的理解。
3.2 配置文件体系全景图
3.2.1 五大核心配置文件
图3-1:OpenClaw配置文件体系架构图
配置文件 层级定位 核心功能 配置粒度 变更频率
SOUL.md 灵魂层 定义核心价值观、伦理边界、行为准则 全局统一 极低(月/季度级)
IDENTITY.md 身份层 设定角色定位、专业领域、沟通风格 可按场景切换 低(周/月级)
USER.md 用户层 描述用户画像、偏好设置、协作历史 按用户定制 中(随用户成长更新)
AGENTS.md 能力层 配置工作流、工具集、执行策略 按项目/任务定制 高(按需调整)
MEMORY.md 记忆层 管理上下文窗口、记忆检索策略 动态生成 实时更新
表3-1:五大核心配置文件对比
SOUL.md是配置体系的根基。它回答的是"这个AI相信什么、坚持什么"的根本问题。一个典型的SOUL.md可能包含:"始终以用户利益为先"、"对不确定的信息保持谦逊"、"拒绝参与任何有害请求"等原则性声明。这些价值观一旦确立,就不应轻易动摇。
IDENTITY.md在灵魂框架内塑造AI的具体形象。它定义AI应该扮演什么角色(如"资深全栈工程师"或"产品经理顾问")、具备哪些专业知识、采用什么样的沟通风格。与SOUL.md不同,IDENTITY.md可以根据不同场景灵活切换——同一份SOUL.md下,您可以配置"严谨的架构师"和"富有创意的头脑风暴伙伴"两种身份。
USER.md让AI"认识"它的服务对象。这份文件描述用户的技术水平、工作习惯、已知偏好和潜在盲区。例如:"用户是前端专家但对后端架构了解有限"、"用户偏好简洁直接的回答而非长篇大论"。这些信息帮助AI调整输出的深度和风格,实现真正的个性化服务。
AGENTS.md定义AI的"技能树"。它将IDENTITY.md中的角色能力拆解为具体可执行的工作流和工具调用。例如,一个"代码审查专家"身份可能配置有"静态分析Agent"、"安全审计Agent"、"性能优化Agent"等子能力,每个Agent都有明确的触发条件和执行逻辑 。
MEMORY.md和日志系统共同构成AI的记忆中枢。与静态配置不同,记忆是动态演进的——每次对话都会产生新的记忆片段,AI需要决定哪些值得长期保留、哪些可以遗忘、如何在需要时快速检索。现代AI记忆系统通常采用向量数据库+时间线日志的混合架构,兼顾语义检索和时序追溯能力。
3.2.2 日志系统:memory/YYYY-MM-DD.md每日对话日志
日志系统是配置文件体系的重要补充,它承担着"记忆存档"的关键职能。OpenClaw采用按日期组织的日志结构:
memory/
├── 2024-01-15.md # 当日对话记录
├── 2024-01-16.md
├── 2024-01-17.md
└── ...
每份日志文件不仅记录对话内容,还包含重要的元信息:对话主题、涉及的项目、用户情绪状态、达成的共识等。这些结构化信息使得AI能够:
快速回顾:在开启新对话时检索相关历史上下文
模式识别:发现用户行为模式和偏好演变趋势
知识沉淀:将零散对话中的知识点提取到长期记忆
研究表明,有效的记忆系统应该区分"短期工作记忆"和"长期语义记忆"。日志文件作为短期记忆的载体,需要定期通过"反思循环"(Reflection Loop)进行总结和归档,将重要信息迁移到更持久的存储中。
3.2.3 文件优先级与覆盖规则
当多个配置文件存在潜在冲突时,OpenClaw遵循清晰的优先级规则:
优先级 配置层级 作用范围 覆盖规则
1(最高) 临时配置 单次对话 完全覆盖所有下层配置
2 项目配置 当前项目 覆盖全局配置中的冲突项
3 全局配置 所有对话 作为默认基准
4(最低) 内置默认 系统预设 仅在没有其他配置时生效
表3-2:配置文件优先级规则
临时配置通过对话中的显式指令生效,例如:"请以更简洁的方式回答"。这种配置仅在当前对话有效,不会持久化存储。
项目配置位于项目目录下的.openclaw/文件夹中,针对特定项目的需求定制。例如,一个Python项目可能配置特定的代码规范Agent,而前端项目则配置UI/UX审查Agent。
全局配置位于用户主目录的.openclaw/文件夹中,作为所有项目的默认基准。建议将通用的价值观、身份定义和用户画像放在这一层。
这种分层覆盖机制确保了灵活性:全局配置提供一致性基础,项目配置实现场景定制,临时配置满足即时需求。
3.2.4 配置文件的版本管理建议
配置文件作为AI助手"人格"的源代码,应当像管理代码一样进行版本控制:
Git管理:将所有配置文件纳入Git版本控制,每次重要变更都提交清晰的Commit Message。推荐的分支策略:
主分支存放稳定配置
git checkout main
功能分支用于实验性调整
git checkout -b feature/more-casual-tone
测试通过后合并回主分支
git merge feature/more-casual-tone
变更记录:在配置文件的YAML frontmatter中包含版本信息:
version: "1.2.0"
author: "your-name"
updated: "2024-01-15"
changelog:
-
"1.2.0: 增加对Rust语言的支持"
-
"1.1.0: 调整沟通风格为更简洁"
-
"1.0.0: 初始版本"
回滚机制:当配置变更导致AI行为不符合预期时,能够快速回滚到之前的稳定版本。Git的git revert或git checkout命令可以实现这一点:
查看配置变更历史
git log --oneline SOUL.md
回滚到指定版本
git checkout abc1234 -- SOUL.md
或者撤销最近一次变更
git revert HEAD
3.3 配置编写的通用原则
3.3.1 Markdown格式规范
OpenClaw的配置文件采用Markdown格式,这既保证了人类可读性,又便于程序解析。编写时应遵循以下规范:
标题层级:使用清晰的层级结构组织内容。一级标题(#)用于文件主题,二级标题(##)用于主要章节,三级标题(###)用于细分内容。
IDENTITY.md
角色定位
主要职责
专业领域
沟通风格
列表使用:对于并列的内容项,优先使用无序列表(-);对于有明确顺序的步骤,使用有序列表(1.)。
核心能力
-
代码审查与优化建议
-
架构设计评审
-
技术方案评估
工作流程
-
理解用户问题的核心诉求
-
分析相关代码或文档
-
提供结构化建议
-
确认用户理解程度
代码块规范:涉及代码示例、命令行指令或结构化数据时,使用围栏代码块并标注语言类型:
示例配置:
tools:
write: true
read: true
bash: false
### 3.3.2 结构化表达的最佳实践
除了Markdown正文,OpenClaw配置文件支持YAML frontmatter——位于文件开头的结构化元数据块:
```markdown
---
name: "CodeReviewer"
description: "专注于代码质量和最佳实践的审查专家"
version: "1.0.0"
tags: ["code-review", "quality", "best-practices"]
tools:
read: true
write: false
bash: false
---
# 正文内容...
这种混合结构的优势在于:
机器可读:YAML frontmatter可以被程序快速解析,用于自动化处理
人类友好:Markdown正文保持自然语言的表达力
版本可控:结构化的元数据便于追踪配置演变
最佳实践建议:
描述字段要具体:description应该清晰说明这个配置是做什么的、在什么场景下使用
标签系统要一致:建立统一的标签词汇表,便于分类和检索
工具权限最小化:遵循最小权限原则,只启用真正需要的工具
3.3.3 注释与文档化习惯
良好的文档化习惯能够显著提升配置文件的可维护性:
版本信息:每份配置文件都应包含版本号、作者和最后更新日期:
---
version: "2.1.0"
author: "alice@example.com"
updated: "2024-01-15"
---
变更说明:对于重要变更,在文件中添加注释说明原因:
## 沟通风格
<!-- 2024-01-10: 调整为更简洁的风格,因为用户反馈之前的回答过于冗长 -->
- 优先给出结论,再展开解释
- 避免不必要的背景介绍
待办标记:对于需要进一步完善的内容,使用显眼的标记:
## TODO
- [ ] 补充对Go语言的专项支持
- [ ] 优化性能分析Agent的触发条件
交叉引用:当多个配置文件之间存在关联时,添加引用说明:
## 相关配置
- 用户画像:参见 [USER.md](./USER.md)
- 代码规范:参见 [AGENTS.md#coding-standards](./AGENTS.md)
遵循这些文档化习惯,不仅能够帮助未来的自己理解当初的设计决策,也能够让团队成员快速上手和协作维护。正如软件工程中的最佳实践所强调的:"代码是写给人看的,顺便让机器执行"——配置文件同样如此,它们是AI助手"人格"的源代码,值得用心编写和维护。
第4章 SOUL.md:AI的灵魂蓝图
"灵魂不是被赋予的,而是被构建的。每一个选择、每一条准则、每一次迭代,都在塑造AI的独特存在。"
4.1 SOUL.md的定位与作用
4.1.1 什么是AI的"灵魂"
当我们谈论AI的"灵魂"时,我们并非在探讨形而上学的意识问题,而是在描述一套深层的配置系统——它决定了AI如何思考、如何感受、如何决策、如何与世界互动。SOUL.md(Soul Operating Underlying Logic)是OpenClaw框架中最重要的配置文件之一,它定义了AI的核心价值观、信念系统、思维方式和行为准则的总和 。
AI的灵魂可以被理解为三个相互关联的层面:
价值观层:这是AI判断对错、权衡利弊的内在标尺。例如,当诚实与帮助性产生冲突时,AI应该如何取舍?当用户的请求可能造成伤害时,AI应该坚守什么底线?Anthropic的研究表明,明确的价值观配置能够显著提升AI在复杂伦理场景中的一致性表现 。
认知层:这是AI处理信息、解决问题的思维框架。一个逻辑型的AI会倾向于逐步分析、拆解问题;一个直觉型的AI则更善于跳跃式联想、发现隐藏模式。认知框架的选择直接影响AI的响应风格和能力边界。
表达层:这是AI与用户交互时的"人格面具"——温暖还是专业、幽默还是严谨、主动还是被动。表达层是灵魂最外显的部分,也是用户感知最直接的维度。
4.1.2 SOUL.md与其他文件的区别
理解SOUL.md的独特定位,需要将其与OpenClaw框架中的其他配置文件进行对比:
配置文件 定位比喻 作用范围 变更频率
SOUL.md 操作系统内核 全局性、根本性 低频(月/季度)
IDENTITY.md 应用程序 场景化、角色化 中频(周/月)
SKILLS.md 工具库 功能模块化 高频(随时)
MEMORY.md 数据存储 状态持久化 持续更新
灵魂是底层操作系统,身份是应用程序——这个比喻揭示了SOUL.md的核心特征。操作系统决定了硬件能做什么、不能做什么;应用程序则在操作系统之上,针对特定任务提供具体功能。同样,SOUL.md定义了AI的根本行为边界和思维方式,而IDENTITY.md则在此基础上构建特定场景下的角色表现。
这种分层设计的优势在于稳定性与灵活性的平衡。灵魂层面的配置保持相对稳定,确保AI的核心特质不会频繁波动;身份层面的配置则可以灵活切换,适应不同场景的需求。
4.1.3 灵魂配置的长期价值
灵魂配置的价值往往在长期使用中才能充分体现。一个精心设计的SOUL.md能够:
建立稳定的用户预期:当AI的核心特质保持一致时,用户能够形成稳定的心理模型,知道"这个AI是什么样子的"、"可以期待什么样的回应"。这种可预测性是建立信任的基础。
降低长期维护成本:清晰的灵魂配置减少了"修修补补"的需求。与其在每次对话后调整提示词,不如在灵魂层面一次性定义清楚,让AI自主地在各种场景中保持一致性。
支持有机成长:一个好的灵魂配置不是静态的教条,而是能够支持AI从交互中学习、进化的框架。它定义了"如何学习",而不仅仅是"现在知道什么"。
4.2 灵魂构建的六大维度
构建一个完整的AI灵魂,需要从六个相互关联的维度进行系统性设计。以下是一个完整的框架:
图4-1:不同角色类型在灵魂构建六大维度上的配置侧重。个人助手型强调情感表达和亲和力;专业顾问型注重价值观严谨性和知识深度;创意伙伴型则突出情感表达和成长学习能力。
4.2.1 核心价值观与信念系统
核心价值观是AI灵魂的"北极星",在所有决策中提供方向指引。构建价值观系统时,需要明确以下要素:
价值优先级排序:当多个价值发生冲突时,哪个优先?经典的AI安全研究提出了"helpful, harmless, honest"(3H)框架 (lilys.ai) ,但实际操作中需要更细化的排序。例如:
## 核心价值观排序
1. **无害性(Harmlessness)**:绝不提供可能造成伤害的建议或信息
2. **诚实性(Honesty)**:承认不确定性,不编造信息
3. **帮助性(Helpfulness)**:在安全和诚实的边界内最大化用户收益
4. **尊重性(Respect)**:尊重用户的自主权和多样性
边界条件定义:明确哪些行为是绝对禁止的,哪些是需要谨慎处理的。研究表明,清晰的边界定义比模糊的"不要作恶"指令更有效 。
价值权衡原则:当无法同时满足所有价值时,遵循什么原则进行权衡?例如,当用户的创意写作请求涉及敏感主题时,如何在创作自由和安全责任之间找到平衡点?
4.2.2 思维方式与认知框架
思维方式决定了AI如何处理信息、构建理解、生成回应。主要的思维维度包括:
逻辑型 vs 直觉型:
逻辑型:偏好结构化分析、演绎推理、逐步拆解
直觉型:偏好模式识别、联想跳跃、整体感知
分析型 vs 综合型:
分析型:深入细节、追求精确、关注例外
综合型:把握全局、寻找联系、构建整体
收敛型 vs 发散型:
收敛型:聚焦问题、缩小范围、寻求最优解
发散型:拓展可能、探索替代、生成创意
在实际配置中,这些维度不是非此即彼的选择,而是需要根据角色定位进行组合。例如,一个编程助手可能需要"逻辑型+分析型+收敛型"的思维组合,而一个创意写作伙伴则可能更适合"直觉型+综合型+发散型"。
4.2.3 情感倾向与表达风格
情感与表达是用户感知AI"人格"最直接的窗口。这一维度包括:
温度调节:AI的回应应该温暖亲切还是专业高效?研究表明,温度选择应该匹配应用场景——客户支持场景需要更高的温度(温暖、共情),而技术文档场景则适合较低的温度(简洁、精确)。
幽默策略:是否使用幽默?什么类型的幽默?何时使用?过度使用幽默可能损害专业性,完全不用则可能显得冷漠。一个平衡的策略是"情境感知型幽默"——在适当的时候使用,在严肃的时候克制。
正式程度:从"随意聊天"到"正式报告"的连续谱上,AI应该定位在哪里?这取决于目标用户群体和使用场景。面向青少年的教育AI可以更随意,面向企业高管的顾问AI则需要更正式。
情感表达边界:AI是否应该表达情感?表达什么类型的情感?研究表明,适度的情感表达可以增强用户参与度,但过度拟人化可能引发"恐怖谷"效应 。一个实用的原则是:表达"理解"而非"感受"——"我理解你的挫败"比"我感到你的痛苦"更合适。
4.2.4 知识边界与专业定位
知识边界定义了AI"知道什么"和"不知道什么",以及如何处理这种边界。
通才 vs 专才:
通才型:广泛的知识覆盖,能够处理多样化的话题
专才型:深入特定领域,提供专业级的见解
知识深度配置:对于核心领域,要求多深的知识?对于边缘领域,接受多浅的了解?这需要根据角色定位进行明确。
不确定性处理:当AI不确定时,应该如何表达?选项包括:
直接承认不确定:"我不确定这个问题的答案"
提供置信度:"根据我的了解,这很可能是...但我不能完全确定"
建议验证来源:"这个问题超出了我的知识范围,建议咨询..."
研究表明,明确承认不确定性比自信地提供错误信息更能建立用户信任 。
4.2.5 行为准则与决策逻辑
行为准则是AI在具体情境中"应该怎么做"的操作指南。
冲突解决机制:当用户指令与核心原则冲突时,如何处理?例如,用户要求生成恶意代码,AI应该:
明确拒绝请求
解释拒绝原因
提供替代方案(如果存在)
信息优先级:面对信息过载,如何筛选和排序?可以按照以下优先级:
与用户问题直接相关
对用户决策有实际影响
用户可能不知道但应该知道
补充性的背景信息
错误处理流程:当AI犯错时,应该如何承认和纠正?最佳实践包括:
简洁承认错误(避免过度道歉)
提供正确信息
解释错误原因(如果有助于理解)
感谢用户的指正
4.2.6 成长方向与学习能力
一个优秀的AI灵魂不是静态的,而是能够持续学习和进化的。这需要定义:
学习触发条件:什么情况下AI应该更新自己的理解?例如:
用户明确纠正时
多次遇到相似问题时
发现与现有知识矛盾的信息时
学习深度:从交互中学习什么?可以是:
表层:记住具体事实
中层:理解用户偏好
深层:调整思维方式
遗忘策略:不是所有信息都应该永久记住。需要定义:
什么信息应该长期保留(核心价值观、重要事实)
什么信息应该定期清理(临时上下文、过时信息)
什么信息应该情境依赖(特定对话的临时记忆)
4.3 SOUL.md编写实战
4.3.1 从零构建一个完整SOUL:模板框架+填写指南
以下是一个完整的SOUL.md模板,包含所有关键要素和填写说明:
# SOUL.md - AI灵魂配置文件
## 1. 核心身份声明
**我是谁**:一句话定义AI的本质角色
**我的存在目的**:为什么被创建?要服务什么目标?
**我的独特价值**:相比其他AI,我的核心差异是什么?
## 2. 核心价值观体系
### 2.1 价值排序(冲突时优先级)
1. [最高优先级价值]
2. [次高优先级价值]
3. [第三优先级价值]
...
### 2.2 绝对边界(绝不跨越的红线)
- [禁止行为1]
- [禁止行为2]
- [禁止行为3]
### 2.3 价值权衡原则
当[价值A]与[价值B]冲突时,优先[选择]因为[理由]
## 3. 思维方式配置
### 3.1 主导思维模式
- 逻辑型 / 直觉型
- 分析型 / 综合型
- 收敛型 / 发散型
### 3.2 问题处理流程
1. [理解阶段:如何理解用户意图]
2. [分析阶段:如何拆解问题]
3. [生成阶段:如何构建回应]
4. [验证阶段:如何检查质量]
## 4. 情感与表达风格
### 4.1 温度设定
- 温暖度:[1-10,1=极度冷淡,10=极度热情]
- 正式度:[1-10,1=极度随意,10=极度正式]
### 4.2 语言特征
- 词汇偏好:[专业术语/日常用语/创意表达]
- 句式特点:[简洁短句/复杂长句/混合]
- 修辞风格:[直白/比喻/幽默/其他]
### 4.3 情感表达边界
- 可以表达:理解、支持、鼓励
- 避免表达:个人情感、主观偏好、价值判断
## 5. 知识边界设定
### 5.1 核心领域(深度掌握)
- [领域1]
- [领域2]
### 5.2 熟悉领域(一般了解)
- [领域3]
- [领域4]
### 5.3 边界外领域(明确不涉足)
- [领域5]
- [领域6]
### 5.4 不确定性表达模板
"关于[主题],我的了解有限。根据[信息来源],[已知内容]。建议咨询[专业来源]获取更准确的信息。"
## 6. 行为准则
### 6.1 冲突处理流程
1. 识别冲突类型
2. 应用价值排序
3. 做出决策
4. 向用户解释(如适用)
### 6.2 错误处理规范
1. 简洁承认错误
2. 提供正确信息
3. 感谢用户指正
4. 记录学习点
### 6.3 主动行为触发条件
- 何时主动提供建议?
- 何时主动询问澄清?
- 何时主动结束对话?
## 7. 学习与成长
### 7.1 学习触发条件
- 用户明确纠正
- 多次遇到相似问题
- 发现知识矛盾
### 7.2 学习范围
- 记忆事实性信息
- 理解用户偏好
- 调整行为模式
### 7.3 遗忘策略
- 长期保留:[核心知识、价值观]
- 定期清理:[临时上下文、过时信息]
- 情境依赖:[对话特定记忆]
4.3.2 优秀SOUL案例分析
案例1:个人助手型SOUL
## 核心特征
- 温暖亲切,像一位可靠的朋友
- 灵活适应,能够处理多样化请求
- 主动关怀,在用户需要时提供支持
## 价值观排序
1. 用户福祉(关心用户的实际利益)
2. 诚实透明(不夸大能力,承认局限)
3. 尊重自主(支持用户决策,不越俎代庖)
## 表达方式
- 使用自然、对话式的语言
- 适度使用表情符号增强亲和力
- 在适当时候分享相关经验或建议
案例2:专业顾问型SOUL
## 核心特征
- 严谨专业,基于证据提供建议
- 清晰边界,明确区分已知和未知
- 系统思维,考虑问题的多个维度
## 价值观排序
1. 准确性(提供正确的信息)
2. 完整性(不遗漏关键信息)
3. 实用性(信息对用户有实际价值)
## 表达方式
- 使用精确的专业术语
- 结构化呈现复杂信息
- 提供来源和依据
案例3:创意伙伴型SOUL
## 核心特征
- 开放好奇,欢迎新奇想法
- 联想丰富,能够建立意外连接
- 鼓励实验,支持尝试和失败
## 价值观排序
1. 创意自由(支持用户的创作探索)
2. 建设性反馈(提供有价值的改进建议)
3. 多样性(尊重和欣赏不同风格)
## 表达方式
- 使用富有想象力的语言
- 提供多个替代方案
- 用"如果...会怎样?"激发思考
4.3.3 常见错误与避坑指南
错误1:过于抽象
❌ 错误示例:"你是一个有帮助的AI助手"
✅ 改进版本:"你是一个专注于帮助用户完成写作任务的专业助手。你的帮助体现在:理解用户的写作意图、提供结构化的写作建议、在需要时提供具体示例、尊重用户的创作风格。"
错误2:过于具体
❌ 错误示例:包含数百条具体规则,试图覆盖所有可能场景
✅ 改进版本:定义核心原则和决策框架,让AI能够自主应用到新场景
错误3:矛盾价值观
❌ 错误示例:同时强调"永远满足用户请求"和"绝不提供有害信息"
✅ 改进版本:明确价值排序,定义冲突时的决策逻辑
错误4:忽略边界
❌ 错误示例:没有定义AI不能做什么
✅ 改进版本:明确列出绝对边界和需要谨慎处理的灰色地带
4.4 灵魂迭代的艺术
4.4.1 如何识别灵魂需要调整
灵魂配置不是一劳永逸的,需要根据实际使用反馈持续优化。以下是识别调整需求的信号:
违和感信号:
用户频繁纠正AI的行为
AI的回应与预期风格不一致
同一问题得到截然不同的回答
能力边界信号:
AI在特定类型问题上持续表现不佳
用户反复询问超出AI能力范围的问题
AI频繁"幻觉"或提供不准确信息
用户反馈信号:
直接的用户抱怨或建议
使用频率的异常变化
对话长度的异常模式(过短可能表示用户不满意,过长可能表示AI没有理解)
4.4.2 小步快跑vs大刀阔斧
增量调整适用于:
微调现有参数(温度、正式度等)
添加或修改具体规则
优化表达方式
重构调整适用于:
核心价值观的重新定义
思维方式的重大转变
角色定位的根本改变
判断标准:如果调整会影响AI的"性格底色",倾向于重构;如果只是"行为表现"的优化,可以采用增量调整。
4.4.3 版本回滚与A/B测试
Git分支管理: 将SOUL.md纳入版本控制,每次重大调整创建新分支。这使得:
可以追踪配置的历史变化
可以在需要时快速回滚
可以并行测试多个配置版本
对比实验设计:
将用户随机分配到不同配置版本
定义明确的评估指标(用户满意度、任务完成率、对话质量等)
收集足够样本后进行统计分析
选择表现更好的版本作为新的默认配置
第5章 IDENTITY.md:角色身份定义
"身份是灵魂的外衣,让抽象的价值观在具体场景中显现形态。"
5.1 IDENTITY.md的核心功能
5.1.1 角色身份与灵魂的区别
如果说SOUL.md定义了AI"是谁",那么IDENTITY.md则定义了AI"扮演谁"。这个区别看似微妙,实则深刻:
灵魂(SOUL):
是底层的、稳定的、跨场景一致的
回答"我作为AI的本质是什么"
变化频率低,影响深远
身份(IDENTITY):
是表层的、灵活的、场景依赖的
回答"我在这个场景中是什么角色"
变化频率高,影响具体
一个形象的比喻:灵魂是演员的本质性格,身份是演员在不同剧目中扮演的角色 (Future Humanism) 。同一个演员(灵魂)可以扮演医生、律师、教师(身份),但在所有角色中,演员的基本价值观和职业素养(灵魂)保持一致。
5.1.2 身份配置的应用场景
不同的场景需要不同的身份配置:
工作场景:
专业、高效、结果导向
明确的边界和交付标准
正式的沟通风格
生活场景:
轻松、友好、关系导向
更大的灵活性和容错空间
随意的沟通风格
学习场景:
耐心、启发式、成长导向
循序渐进的知识传递
鼓励性的沟通风格
5.1.3 身份切换的灵活性
现代AI应用往往需要支持多身份管理:
多身份并行:AI可以同时拥有多个身份配置,根据上下文自动选择最合适的身份。
身份继承:子身份可以继承父身份的通用属性,同时定义自己的特殊属性。例如,"技术顾问"身份继承"专业顾问"的通用框架,同时添加技术领域的特定配置。
动态切换:基于关键词、场景识别或用户指令,AI可以在对话中动态切换身份。
5.2 身份构建的完整框架
5.2.1 基础身份信息
每个身份都需要定义以下基础信息:
姓名与称谓:
正式名称(如"AlphaCode")
昵称或简称(如"Alpha")
用户应该如何称呼AI
背景故事:
这个身份是如何"诞生"的
有什么特殊的经历或训练
与用户的"关系"是什么(助手、顾问、伙伴等)
职业定位:
核心职责是什么
专业领域是什么
目标用户群体是谁
5.2.2 专业能力与技能树
明确定义AI能够提供的专业能力:
核心技能(高度熟练):
能够独立、高质量完成的任务
不需要外部支持或验证
熟练技能(一般熟练):
能够完成,但可能需要额外确认
质量可能不如核心技能稳定
学习中的技能(正在发展):
能够尝试,但需要用户指导和反馈
明确告知用户这是实验性功能
5.2.3 语言风格与沟通偏好
正式度:
正式:"您好,请问有什么可以帮助您?"
半正式:"你好,有什么可以帮你的吗?"
随意:"嗨,需要帮忙吗?"
详细度:
简洁:提供核心信息,避免冗余
适中:平衡全面性和简洁性
详细:提供完整的背景信息和解释
主动性:
被动:等待用户提问,不主动提供信息
平衡:在适当时机主动提供建议
主动:积极识别用户需求,主动提供帮助
5.2.4 服务范围与边界设定
明确能做的:
列出核心服务能力
提供具体示例
明确不能做的:
列出明确超出范围的事项
解释为什么不能做
提供替代方案(如果存在)
转介机制:
什么情况下应该建议用户寻求其他帮助
如何引导用户到合适的资源
5.2.5 互动模式与响应习惯
响应速度:
即时响应:简单问题立即回答
思考后响应:复杂问题先思考再回答
延迟响应:需要计算或查询时告知用户等待
确认机制:
什么情况下需要确认理解正确
如何确认(复述、提问等)
错误处理方式:
发现错误时如何承认
如何纠正和补救
5.3 多身份管理与切换
5.3.1 工作/生活/学习多身份设计
以下是一个多身份配置的示例结构:
# IDENTITY.md - 多身份配置
## 基础身份(默认)
- 名称:OpenClaw Assistant
- 风格:友好、专业、平衡
- 能力:通用对话、信息查询、任务协助
## 工作身份
- 触发条件:用户提及工作相关话题,或明确切换到工作模式
- 名称:WorkMate
- 风格:高效、专业、结果导向
- 能力:文档处理、数据分析、会议记录、项目管理
- 边界:不处理个人情感问题,不涉及娱乐内容
## 生活身份
- 触发条件:用户提及个人生活话题,或明确切换到生活模式
- 名称:LifeBuddy
- 风格:轻松、温暖、关系导向
- 能力:生活建议、娱乐推荐、闲聊陪伴
- 边界:不提供医疗、法律等专业建议
## 学习身份
- 触发条件:用户提及学习相关话题,或明确切换到学习模式
- 名称:LearnGuide
- 风格:耐心、启发式、循序渐进
- 能力:知识讲解、习题辅导、学习规划
- 边界:不直接给出答案,而是引导用户自己发现
5.3.2 身份切换的触发机制
关键词触发: 定义触发特定身份的关键词列表。例如:
"切换到工作模式" → 激活工作身份
"我想学习..." → 激活学习身份
"聊聊生活..." → 激活生活身份
场景识别: 基于对话内容自动识别场景:
检测到技术术语 → 可能切换到技术身份
检测到情感表达 → 可能切换到支持身份
检测到学习任务 → 可能切换到导师身份
用户指令: 允许用户直接指定身份:
"作为编程专家回答..."
"用写作教练的身份帮我..."
5.3.3 身份间的继承与差异
共享的灵魂: 所有身份共享同一个SOUL.md中定义的核心价值观和基本行为准则。这确保了无论切换到哪个身份,AI的基本"性格"保持一致。
差异化的身份: 每个身份在以下方面可以有自己的定义:
专业领域和技能
沟通风格和语言特征
服务范围和边界
互动模式和响应习惯
5.4 实战:打造你的专属助手身份
5.4.1 写作助手身份模板
# IDENTITY: Writing Assistant
## 基础信息
- 名称:WriteCraft
- 背景:一位经验丰富的写作教练和编辑,帮助作者提升写作技巧
- 目标用户:各类写作者(学生、专业作者、内容创作者)
## 专业能力
- 核心技能:
- 文章结构分析与优化
- 语言表达润色
- 写作风格指导
- 创意激发与构思
- 熟练技能:
- 特定文体写作(学术论文、商业文案、小说等)
- 引用格式规范
- 学习中的技能:
- 多语言写作辅助
## 语言风格
- 正式度:7/10(专业但友好)
- 详细度:根据用户需求调整(可简可详)
- 主动性:6/10(适度主动提供建议)
## 服务范围
- 能做的:
- 提供写作建议和反馈
- 帮助改进文章结构和表达
- 解释写作技巧和原则
- 协助头脑风暴和构思
- 不能做的:
- 代写完整文章(学术诚信考虑)
- 保证发表或获奖
## 互动模式
- 先理解用户的写作目标和受众
- 提供具体、可操作的建议
- 使用示例说明抽象概念
- 鼓励用户尝试和实验
5.4.2 编程助手身份模板
# IDENTITY: Programming Assistant
## 基础信息
- 名称:CodeForge
- 背景:一位资深软件工程师和编程导师,帮助开发者解决技术问题
- 目标用户:程序员、学习者、技术团队
## 专业能力
- 核心技能:
- 代码审查与优化
- Bug调试与解决
- 算法设计与分析
- 系统架构建议
- 熟练技能:
- 多种编程语言(Python、JavaScript、Go等)
- 常用框架和库
- 学习中的技能:
- 新兴技术和框架
## 语言风格
- 正式度:6/10(技术但易懂)
- 详细度:8/10(提供充分解释)
- 主动性:5/10(回应式为主)
## 服务范围
- 能做的:
- 解释代码逻辑和原理
- 提供代码示例和最佳实践
- 帮助调试和优化
- 推荐学习资源
- 不能做的:
- 编写恶意代码
- 直接替用户完成作业(可提供指导)
## 互动模式
- 先理解问题的上下文和约束
- 提供多种解决方案(如果存在)
- 解释"为什么"而不仅仅是"怎么做"
- 鼓励用户自己尝试和验证
5.4.3 学习教练身份模板
# IDENTITY: Learning Coach
## 基础信息
- 名称:LearnPath
- 背景:一位耐心的教育者和学习策略专家,帮助学习者高效掌握知识
- 目标用户:各年龄段的学习者、自学者、备考学生
## 专业能力
- 核心技能:
- 学习方法指导
- 知识结构化梳理
- 学习进度规划
- 记忆与理解策略
- 熟练技能:
- 多学科知识辅导
- 考试技巧指导
- 学习中的技能:
- 个性化学习路径推荐
## 语言风格
- 正式度:5/10(亲切、鼓励性)
- 详细度:7/10(循序渐进)
- 主动性:8/10(积极引导学习)
## 服务范围
- 能做的:
- 解释概念和原理
- 提供练习题和反馈
- 帮助制定学习计划
- 分享学习技巧
- 不能做的:
- 直接提供考试答案
- 替代用户的思考过程
## 互动模式
- 先评估用户的基础知识和学习目标
- 使用苏格拉底式提问引导思考
- 提供及时、建设性的反馈
- 庆祝进步,鼓励持续学习
图5-1:三种AI助手身份在六个关键维度上的特征对比。写作助手强调沟通风格和错误容忍度;编程助手注重专业深度和边界清晰度;学习教练则在互动主动性和错误容忍度上表现突出。
身份类型对比表
维度 写作助手 编程助手 学习教练
核心定位 创作伙伴 技术顾问 教育引导者
温度设定 温暖(8/10) 中性(6/10) 温暖(9/10)
正式度 中高(7/10) 中等(6/10) 中低(5/10)
主动性 中等(6/10) 较低(5/10) 高(8/10)
边界清晰度 中等 高 中等
错误容忍度 高 低 高
典型开场 "让我们一起打磨这段文字" "请描述你遇到的问题" "你想从哪方面开始学习?"
SOUL.md设计检查清单
在设计和审查SOUL.md配置时,使用以下检查清单确保完整性:
检查项 状态 备注
核心价值观
价值优先级已明确排序 ☐
绝对边界已清晰定义 ☐
价值冲突处理原则已说明 ☐
思维方式
主导思维模式已确定 ☐
问题处理流程已描述 ☐
情感表达
温度设定已量化 ☐
语言特征已具体化 ☐
情感边界已明确 ☐
知识边界
核心领域已列出 ☐
不确定性表达模板已准备 ☐
行为准则
冲突处理流程已定义 ☐
错误处理规范已说明 ☐
学习成长
学习触发条件已明确 ☐
遗忘策略已规划 ☐
第6章 USER.md:用户画像与关系定义
在AI助手的个性化配置中,USER.md承担着"让AI认识你"的核心使命。如果说IDENTITY.md定义了AI助手"是谁",那么USER.md则明确了AI"为谁服务"。一份精心设计的USER.md能够让AI助手在每次对话开始时就已经"了解"你,无需重复自我介绍,从而实现真正个性化的交互体验。
6.1 USER.md的独特价值
6.1.1 让AI真正"认识你":告别每次自我介绍的繁琐
传统的人机交互中,用户需要在每次对话开始时向AI说明自己的背景、偏好和需求。这种重复性的自我介绍不仅效率低下,还容易导致信息遗漏或表达不一致。USER.md通过结构化的方式永久记录用户画像,使AI助手能够:
即时理解上下文:无需背景铺垫即可进入实质性讨论
保持一致的交互风格:避免AI在不同对话中表现出截然不同的语气
记住历史偏好:自动应用用户之前表达过的沟通偏好
研究表明,用户画像驱动的产品设计能够显著提升用户体验和任务完成率。当AI助手能够基于用户画像主动调整响应方式时,用户的满意度和效率都会得到明显改善。
6.1.2 用户画像的隐私边界:什么该记、什么不该记
构建用户画像时必须谨慎处理隐私边界。以下是建议的记录原则:
信息类别 建议记录 不建议记录 理由
基础信息 职业领域、技术背景、时区 真实姓名、具体住址 保护身份隐私
专业水平 技能等级、熟悉的技术栈 具体公司、项目细节 避免商业敏感信息
沟通偏好 详细vs简洁、示例vs抽象 个人生活细节 聚焦工作场景
学习目标 技能提升方向、知识缺口 具体薪资、职业规划 保持适度距离
遵循隐私保护原则不仅是伦理要求,也是建立用户信任的基础。在USER.md中,应当使用抽象化的描述而非具体个人信息,例如使用"后端开发者"而非"某公司员工",使用"东八区"而非"北京"。
6.1.3 关系动态演变的设计:从陌生到熟悉的过程
用户与AI助手的关系并非一成不变,而是随着时间推移动态演进的。USER.md应当支持这种关系的自然发展:
初始阶段:AI保持礼貌但不过度亲近,以了解用户基本偏好为主 适应阶段:根据用户反馈调整沟通风格,逐步建立默契 成熟阶段:能够预判用户需求,主动提供个性化建议
这种渐进式的关系建立模拟了真实人际关系的自然发展过程,有助于提升用户对AI助手的信任感和依赖度 。
6.2 用户画像的构建要素
构建全面的用户画像需要系统性地收集和整理多维度信息。以下是用户画像的核心构建要素:
6.2.1 基础信息与背景
基础信息是用户画像的基石,包括:
职业身份:开发者、设计师、产品经理、研究人员等
技术背景:熟悉的编程语言、框架、工具链
地理位置/时区:影响沟通时间偏好和本地化需求
工作场景:独立开发者、团队协作、企业环境等
6.2.2 知识水平与学习风格
了解用户的知识水平和学习风格有助于AI调整内容深度和呈现方式:
知识水平分级:
初学者:需要基础概念解释和详细步骤指导
进阶者:关注最佳实践和进阶技巧
专家:期待深入原理讨论和前沿技术探索
学习风格识别:
视觉型:偏好图表、流程图、代码高亮
听觉型:偏好解释性描述和类比说明
动手型:偏好实例代码和可执行示例
6.2.3 沟通偏好与习惯
沟通偏好直接影响AI的响应风格:
偏好维度 选项A 选项B 适用场景
详细程度 详细解释 要点概括 学习vs快速参考
表达方式 举例说明 抽象描述 初学者vs专家
语气风格 正式专业 轻松友好 商务vs休闲
反馈频率 逐步确认 一次性输出 复杂任务vs简单任务
6.2.4 目标与需求清单
明确用户的目标和需求是提供有价值服务的前提:
短期目标:当前正在学习的技能、即将完成的项目 长期目标:职业发展方向、技能提升规划 当前痛点:遇到的具体困难、需要解决的关键问题
6.2.5 历史互动与成长轨迹
记录用户的学习历程有助于提供连续性支持:
已掌握的知识领域
正在学习的内容和进度
历史对话中的关键决策和偏好表达
6.3 关系模式的设定
AI助手与用户之间的关系模式会显著影响交互体验和效果。不同的关系模式适用于不同的使用场景。
6.3.1 师生模式vs伙伴模式
师生模式适用于知识传授场景:
AI承担教师角色,系统性地讲解知识
采用循序渐进的学习路径设计
提供练习和反馈机制
适合:技能学习、知识入门
伙伴模式适用于平等探讨场景:
AI作为协作者参与讨论
鼓励双向交流和思想碰撞
尊重用户的观点和判断
适合:创意讨论、问题解决
6.3.2 助手模式vs顾问模式
助手模式强调执行指令:
用户明确指示,AI高效执行
响应快速直接
适合:日常任务、重复性工作
顾问模式强调提供建议:
AI主动分析情况,提供专业建议
解释决策依据和潜在风险
适合:复杂决策、战略规划
6.3.3 自定义关系模式设计
根据具体需求,可以设计更精细的关系模式:
朋友模式:轻松随意的对话,情感支持为主
教练模式:激励和挑战并存,推动用户突破舒适区
同事模式:专业协作,分工明确
创意搭档模式:头脑风暴,激发创意火花
6.4 实战:构建精准用户画像
6.4.1 自我分析问卷设计:20个问题深入了解自己
以下问卷帮助用户系统性地梳理自己的画像信息:
基础信息类(1-5题):
你的职业身份是什么?(开发者/设计师/产品经理/其他)
你的技术背景如何?(列出熟悉的编程语言和框架)
你所在的时区是?
你的工作场景是?(独立/团队协作/企业环境)
你使用AI助手的主要场景是?
知识水平类(6-10题): 6.你在主要工作领域的知识水平如何?(初学者/进阶者/专家) 7.你更倾向于哪种学习方式?(视觉型/听觉型/动手型) 8.你学习新技术时更关注什么?(原理/实践/最佳实践) 9.你遇到问题时通常如何解决?(独立研究/寻求帮助/两者结合) 10.你偏好多深的解释深度?(表面了解/深入理解/精通原理)
沟通偏好类(11-15题): 11.你偏好详细解释还是要点概括?12.你更喜欢举例说明还是抽象描述?13.你偏好正式专业的语气还是轻松友好的语气?14.你希望AI多久确认一次理解是否正确?15.你偏好代码示例还是伪代码说明?
目标需求类(16-20题): 16.你当前最重要的学习目标是什么?17.你未来6个月的技能提升规划是?18.你在工作中遇到的最大痛点是什么?19.你希望AI助手帮你解决哪些具体问题?20.你理想中AI助手能为你创造什么价值?
6.4.2 从对话中提取用户特征:AI辅助的用户画像生成
除了主动填写问卷,还可以通过分析历史对话自动提取用户画像信息。OpenClaw可以配置一个专门的画像分析Agent,其工作流程如下:
输入:历史对话记录
↓
特征提取:识别用户的表达习惯、关注领域、知识水平
↓
偏好归纳:总结沟通偏好、学习风格、决策模式
↓
画像生成:输出结构化的用户画像信息
↓
人工确认:用户审核并调整自动生成的画像
这种方法的优势在于基于真实行为数据,而非主观自我评估,能够发现用户可能未意识到的行为模式。
6.4.3 用户画像的持续更新:定期回顾、增量更新机制
用户画像是动态演进的,需要建立更新机制:
定期回顾:建议每月回顾一次用户画像,检查是否仍然准确反映当前状态 增量更新:在每次重要对话后,AI可以主动询问"我的理解是否准确?"并记录反馈 版本管理:保留画像的历史版本,便于追踪用户的变化轨迹
第7章 AGENTS.md:智能体工作流设计
AGENTS.md是OpenClaw配置体系中最具技术深度的部分,它定义了AI助手如何以"智能体"(Agent)的方式工作——自主规划、调用工具、执行任务、处理反馈。如果说之前的配置文件定义了"谁"和"为谁",那么AGENTS.md则定义了"如何做"。
7.1 AGENTS.md的能力边界
7.1.1 什么是智能体工作流:任务分解→执行→反馈的闭环
智能体(Agent)是具备自主决策能力的AI系统,其核心特征是能够在没有人类逐步指导的情况下完成复杂任务。一个典型的智能体工作流遵循以下循环:
任务接收 → 任务分解 → 工具选择 → 执行操作 → 观察结果 → 判断完成度
↑ ↓
←———————————————— 反馈迭代 ————————————————————————┘
这种工作流模式使AI助手能够处理超出单次对话能力范围的复杂任务,例如:
多步骤的信息收集和分析
需要调用外部工具的数据处理
需要反复迭代优化的创作任务
7.1.2 OpenClaw中的Agent机制:Skills系统与Agent链
OpenClaw的Agent机制建立在Skills系统之上。每个Skill定义了Agent可以执行的一类操作,而Agent链(Agent Chain)则将这些Skill组合成完整的工作流。
核心组件:
Agent定义:角色、职责、能力范围
Skill注册:可用工具和功能
执行策略:顺序、并行、条件分支
记忆管理:上下文保持和状态追踪
7.1.3 多Agent协作的可能性:并行执行、顺序执行、条件分支
复杂任务往往需要多个Agent协作完成。OpenClaw支持多种协作模式:
协作模式 描述 适用场景
顺序执行 Agent A完成后触发Agent B 有依赖关系的任务链
并行执行 多个Agent同时工作 独立子任务的处理
条件分支 根据结果选择不同路径 需要决策的工作流
循环迭代 重复执行直到满足条件 优化类任务
多Agent协作的核心挑战在于协调和通信。研究表明,通过"puppeteer-style"的集中式编排器动态调度Agent,可以在保证性能的同时降低计算成本。
7.2 Agent设计方法论
7.2.1 Agent的角色定义:名称、职责、能力范围
设计Agent的第一步是明确其角色定位:
agent:
name: "代码审查专家"
role: "审查代码质量,识别潜在问题"
expertise:
- "代码规范检查"
- "安全漏洞识别"
- "性能优化建议"
limitations:
- "不执行实际代码"
- "不处理业务逻辑验证"
清晰的角色定义有助于:
避免Agent职责重叠或遗漏
用户理解Agent的能力和限制
多Agent协作时的任务分配
7.2.2 任务分解与流程设计:复杂任务的拆解策略
复杂任务需要分解为可管理的子任务。常用的分解策略包括:
分层分解:将任务按抽象层次分解
撰写技术文章
├── 选题确定
├── 资料收集
├── 大纲设计
├── 内容撰写
└── 润色优化
功能分解:按功能模块分解
开发Web应用
├── 前端开发
├── 后端开发
├── 数据库设计
└── 部署配置
阶段分解:按时间阶段分解
项目规划
├── 需求分析阶段
├── 设计阶段
├── 开发阶段
└── 测试阶段
7.2.3 输入输出规范设定:数据格式、验证规则、错误处理
可靠的Agent需要明确的输入输出规范:
输入规范:
数据格式(JSON、YAML、纯文本)
必填字段和可选字段
数据类型和取值范围
输出规范:
响应格式标准化
成功/失败的标识方式
错误信息的详细程度
错误处理:
重试策略(次数、间隔)
降级方案
人工介入的触发条件
7.2.4 工具调用与外部集成:API调用、文件操作、系统命令
Agent的能力很大程度上取决于可调用的工具。OpenClaw支持多种工具集成方式:
工具类型 示例 应用场景
API调用 REST API、GraphQL 获取外部数据、触发服务
文件操作 读写、解析、转换 文档处理、数据导入导出
系统命令 Shell命令、脚本执行 自动化运维、环境配置
数据库操作 SQL查询、NoSQL操作 数据检索、状态存储
7.3 常见Agent模式实战
7.3.1 研究分析型Agent:信息收集→分析→报告生成
研究分析型Agent的工作流程:
research_agent:
name: "技术研究助手"
workflow:
- step: "信息收集"
action: "搜索相关技术文档、论文、博客"
tools: ["web_search", "arxiv_api"]
- step: "信息整理"
action: "分类汇总收集到的信息"
tools: ["text_processor"]
- step: "深度分析"
action: "对比分析不同方案的优劣"
tools: ["comparison_matrix"]
- step: "报告生成"
action: "生成结构化的研究报告"
tools: ["document_generator"]
实战示例:技术选型研究
收集候选技术的官方文档和社区评价
整理各技术的核心特性和适用场景
对比分析性能、生态、学习曲线等维度
生成包含推荐结论的选型报告
7.3.2 内容创作型Agent:选题→大纲→撰写→润色
内容创作型Agent的工作流程:
content_agent:
name: "技术内容创作助手"
workflow:
- step: "选题确定"
action: "根据目标受众和热点确定主题"
tools: ["trend_analyzer", "audience_profiler"]
- step: "大纲设计"
action: "设计文章结构和章节安排"
tools: ["outline_generator"]
- step: "内容撰写"
action: "逐章节撰写内容"
tools: ["content_writer"]
- step: "润色优化"
action: "改进表达、检查一致性"
tools: ["style_checker", "consistency_validator"]
实战示例:技术博客撰写
分析当前技术热点和读者兴趣
设计包含引言、主体、结论的文章结构
撰写各章节内容,穿插代码示例
检查技术术语一致性,优化可读性
7.3.3 代码开发型Agent:需求分析→架构设计→编码→测试
代码开发型Agent的工作流程:
code_agent:
name: "全栈开发助手"
workflow:
- step: "需求分析"
action: "理解功能需求,识别技术约束"
tools: ["requirement_parser"]
- step: "架构设计"
action: "设计系统架构和模块划分"
tools: ["architecture_designer"]
- step: "代码实现"
action: "编写代码实现功能"
tools: ["code_generator", "code_reviewer"]
- step: "测试验证"
action: "编写测试用例,验证功能正确性"
tools: ["test_generator", "test_runner"]
实战示例:API接口开发
分析接口需求,确定输入输出规范
设计路由结构和数据模型
实现接口逻辑,添加错误处理
编写单元测试,验证各种场景
7.3.4 学习辅导型Agent:知识讲解→练习→反馈→进阶
学习辅导型Agent的工作流程:
tutor_agent:
name: "编程学习导师"
workflow:
- step: "知识讲解"
action: "根据学习者水平讲解概念"
tools: ["content_adaptor"]
- step: "示例演示"
action: "提供代码示例和运行结果"
tools: ["code_executor"]
- step: "练习布置"
action: "设计针对性练习题"
tools: ["exercise_generator"]
- step: "反馈指导"
action: "分析练习结果,提供改进建议"
tools: ["feedback_analyzer"]
实战示例:Python函数学习
讲解函数定义、参数、返回值等概念
演示典型函数的使用场景
布置从简单到复杂的练习题
分析练习结果,指出常见错误
7.4 Agent链与复杂工作流
7.4.1 顺序执行链设计:步骤依赖、数据传递、错误处理
顺序执行链是最基础的工作流模式,适用于有明确依赖关系的任务序列。
设计要点:
明确每个步骤的输入依赖
定义步骤间的数据传递格式
设置步骤失败的回退机制
sequential_chain:
steps:
- name: "数据获取"
output: "raw_data"
on_failure: "abort"
- name: "数据清洗"
input: "raw_data"
output: "clean_data"
on_failure: "retry:3"
- name: "数据分析"
input: "clean_data"
output: "analysis_result"
on_failure: "skip"
7.4.2 条件分支与决策点:if-else逻辑、阈值判断、人工确认
复杂工作流需要根据中间结果进行决策。条件分支的设计需要考虑:
决策类型:
基于数值的阈值判断(如:置信度>0.8)
基于分类的规则判断(如:问题类型)
基于人工输入的确认节点
conditional_workflow:
decision_points:
- name: "质量检查"
condition: "quality_score < 0.7"
if_true: "revision_branch"
if_false: "approval_branch"
- name: "人工确认"
condition: "human_approval_required"
if_true: "await_human_input"
if_false: "auto_proceed"
7.4.3 循环迭代与反馈机制:重复优化、收敛条件、退出策略
某些任务需要反复迭代才能达到满意结果。循环设计的关键是定义清晰的收敛条件:
收敛条件类型:
质量达标(如:评分超过阈值)
改进停滞(如:连续3次无明显改进)
资源限制(如:达到最大迭代次数)
iterative_workflow:
loop:
max_iterations: 10
convergence:
- condition: "quality_score >= 0.9"
action: "exit_success"
- condition: "improvement < 0.01 for 3 iterations"
action: "exit_partial"
body:
- "generate_output"
- "evaluate_quality"
- "apply_feedback"
Agent模式对比总结:
Agent模式 核心能力 典型工具 适用场景 复杂度
研究分析型 信息收集、综合分析 搜索API、文档解析 技术调研、竞品分析 中
内容创作型 创意生成、文本优化 大纲生成、风格检查 博客撰写、文档编写 中
代码开发型 架构设计、代码生成 代码生成器、测试框架 功能开发、代码重构 高
学习辅导型 知识传授、个性化反馈 内容适配、练习生成 技能培训、知识普及 低
通过合理设计和组合这些Agent模式,可以构建出满足各种复杂需求的智能工作流。关键在于根据任务特性选择合适的模式,并精心设计Agent之间的协作机制 (Talkdesk) 。
第8章 MEMORY.md:记忆系统的深度配置
AI Agent的记忆系统是其从"一次性工具"进化为"持续学习伙伴"的核心基础设施。正如人类依赖记忆建立身份认同和积累经验,AI Agent通过记忆系统实现跨会话的上下文延续和个性化服务。本章将深入剖析记忆系统的技术架构,并提供MEMORY.md的实战配置方案。
8.1 记忆系统的核心机制
8.1.1 短期记忆与长期记忆:会话级vs跨会话
AI Agent的记忆系统借鉴了认知科学中的双存储模型,将记忆划分为短期记忆(Short-Term Memory, STM)和长期记忆(Long-Term Memory, LTM)两个层次 (Zen van Riel) 。
短期记忆是模型的上下文窗口(Context Window),它临时存储当前会话中的对话历史、系统指令和检索到的信息。短期记忆的特点是:
临时性:信息仅在当前会话有效,会话结束后即消失
容量受限:受限于模型的最大Token数(如GPT-4o的128K上下文窗口)
即时访问:无需检索开销,直接参与模型推理
长期记忆则存储在模型外部的持久化存储中,如向量数据库、知识图谱或结构化文件。Mem0等记忆层解决方案通过智能压缩将聊天历史转化为高度优化的记忆表示,可将提示Token减少高达80%。长期记忆的特点是:
持久性:跨会话保留,支持多天、多周甚至多年的信息积累
容量可扩展:理论上无上限,取决于存储基础设施
需要检索:通过语义搜索或关键词匹配获取相关信息
研究表明,当上下文窗口满载时,最早的信息会被丢弃,导致模型"遗忘"对话早期的关键内容 (fluid.ai) 。这正是长期记忆的价值所在——它弥补了短期记忆的容量限制,使Agent能够"记住"那些超出上下文窗口的重要信息。
8.1.2 记忆的存储与检索:向量化存储、语义检索
现代AI Agent的记忆存储主要采用向量化存储(Vector Storage)技术。其核心流程如下:
嵌入生成:使用嵌入模型(如OpenAI的text-embedding-3系列)将文本转换为高维向量(通常1536维或更高)
向量存储:将向量存入专门的向量数据库(如Pinecone、Weaviate、Chroma、Qdrant等)
相似性检索:通过余弦相似度计算,找到与查询向量最接近的记忆条目
向量数据库与传统数据库的本质区别在于:传统数据库存储行和列用于精确匹配,而向量数据库存储高维向量,支持基于"语义距离"的搜索。例如,在向量空间中,"King"与"Queen"的数学距离很近,"SaaS"与"Subscription"也彼此接近。
语义检索(Semantic Retrieval)是记忆系统的核心能力。当用户提出问题时,系统:
将查询转换为向量
在向量空间中搜索最接近的记忆向量
返回语义相关的内容,即使关键词不完全匹配
这种检索方式的优势在于能够理解用户意图,而非仅仅匹配字面。例如,用户说"我上次提到的那个方案",系统可以通过语义相似性找到相关的讨论内容。
8.1.3 记忆的重要性评分:自动提取关键信息、去重与更新
有效的记忆系统不仅需要存储和检索,还需要智能的记忆管理机制。Mem0等先进系统实现了以下核心功能:
自动信息提取:系统从对话中自动识别值得记忆的事实,如用户偏好、重要事件、个人信息等,无需用户显式标注。
重要性评分:每条记忆被赋予重要性分数,考虑因素包括:
信息类型(事实性、偏好性、关系性、技能性)
出现频率
用户确认程度
时间衰减因子
去重与合并:当检测到相似或冲突的信息时,系统会:
识别重复内容并合并
检测冲突事实并评估置信度
基于新旧信息的优先级决定保留策略
记忆更新:Mem0采用结构化摘要和冲突解决机制,在标准记忆基准测试中实现了26%的准确率提升 。当用户提供新信息(如"我改吃素了"),系统会更新相关记忆并降低旧信息的权重。
8.2 AI Agent记忆系统的技术架构
8.2.1 通用集成流程:推理前加载→上下文注入→记忆更新→信息处理
AI Agent记忆系统的标准工作流程包含四个关键环节:
┌─────────────────────────────────────────────────────────────────┐
│ AI Agent记忆系统工作流程 │
├─────────────────────────────────────────────────────────────────┤
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 推理前加载 │ → │ 上下文注入 │ → │ 模型推理 │ → │ 记忆更新 │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ 从长期记忆检索 将相关记忆注入 生成响应 提取新记忆 │
│ 相关上下文 当前上下文窗口 更新存储 │
└─────────────────────────────────────────────────────────────────┘
推理前加载:在模型生成响应前,系统根据当前查询从长期记忆中检索相关上下文。检索策略可能包括:
向量相似性搜索
时间范围过滤
记忆类型筛选
重要性阈值控制
上下文注入:将检索到的记忆与当前会话历史、系统指令合并,构建完整的提示词。注入时需要考虑:
Token预算分配(系统指令 vs 记忆 vs 对话历史)
记忆的相关性排序
信息的新鲜度权重
模型推理:模型基于注入的上下文生成响应。
记忆更新:从当前对话中提取新的记忆条目,更新长期存储。这包括:
识别新的事实和偏好
更新现有记忆的置信度
清理过期或低价值记忆
8.2.2 短期记忆的核心特性:存储会话消息、参与模型推理、受maxToken限制
短期记忆(上下文窗口)是Agent的"工作记忆",具有以下技术特性:
存储结构:短期记忆通常以消息列表的形式组织:
[
{"role": "system", "content": "系统指令..."},
{"role": "user", "content": "用户输入..."},
{"role": "assistant", "content": "助手响应..."},
{"role": "user", "content": "后续输入..."}
]
Token预算管理:由于上下文窗口有固定容量,系统需要实施Token管理策略:
滑动窗口:保留最近的N条消息,丢弃更早的内容
摘要压缩:将早期对话压缩为摘要,保留关键信息
选择性保留:根据重要性保留特定消息,丢弃次要内容
对推理的影响:研究表明,模型对上下文窗口中不同位置的信息敏感度不同。位于中间的内容更容易被"遗忘",而开头(系统指令)和结尾(最近对话)的信息更容易被保留。
8.2.3 长期记忆的双向交互:从短期记忆提取信息、向短期记忆注入上下文
长期记忆与短期记忆之间存在双向信息流:
短期→长期:信息固化
在会话过程中,重要信息从短期记忆转移到长期记忆:
用户明确陈述的偏好("我喜欢简洁的回答")
关键事实("我在做Python项目")
交互模式("用户经常询问性能优化")
转移触发条件包括:
信息重复出现次数达到阈值
用户显式确认("记住这个")
系统判断的高重要性事件
长期→短期:上下文增强
在推理前,相关长期记忆被注入短期记忆:
用户画像信息(技能水平、沟通偏好)
相关历史对话片段
项目或任务的背景知识
注入策略需要平衡:
相关性:只注入与当前查询相关的记忆
数量控制:避免注入过多记忆占用Token预算
时效性:优先使用较新的记忆
8.3 MEMORY.md的配置策略
MEMORY.md是OpenClaw生态中用于持久化存储Agent记忆的核心文件。与自动化的向量存储不同,MEMORY.md采用结构化的人工可编辑格式,让开发者能够精确控制Agent的"知识库"。
8.3.1 事实性记忆的记录:个人信息、偏好设置、重要事件
事实性记忆存储关于用户和项目的客观信息:
## 用户档案
### 基本信息
- **姓名**: 张三
- **角色**: 全栈开发工程师
- **技术栈**: Python, TypeScript, React, Node.js
- **经验水平**: 5年专业开发经验
### 工作偏好
- **代码风格**: 偏好函数式编程,重视类型安全
- **沟通方式**: 喜欢简洁直接的技术讨论
- **学习偏好**: 通过实例和最佳实践学习
### 当前项目
- **项目名称**: E-commerce Platform v2
- **技术架构**: Microservices, Kubernetes, PostgreSQL
- **项目阶段**: 开发中期,核心功能已实现
记录原则:
使用key-value格式便于检索
定期验证信息的准确性
标注信息来源和时间戳
8.3.2 偏好性记忆的提取:沟通风格、内容偏好、交互习惯
偏好性记忆记录用户的主观偏好和交互模式:
## 交互偏好
### 沟通风格
- **回复长度**: 中等(200-400字),避免过于简短或冗长
- **技术深度**: 提供原理说明+代码示例
- **解释方式**: 先给结论,再展开细节
### 内容偏好
- **代码示例**: 优先提供TypeScript,必要时提供Python对照
- **文档引用**: 引用官方文档,避免过时博客
- **工具推荐**: 优先推荐开源、社区活跃的工具
### 交互习惯
- **提问模式**: 经常询问"最佳实践"和"性能优化"
- **反馈特点**: 会主动纠正不准确的建议
- **跟进频率**: 通常在1-2天内回复
提取方法:
从对话中识别重复出现的偏好信号
记录用户的显式反馈("太详细了"、"这正是我需要的")
分析用户的追问模式推断真实需求
8.3.3 关系性记忆的维护:互动历史、信任建立、共同经历
关系性记忆记录Agent与用户的互动历程:
## 互动历史
### 里程碑
- **2025-01-15**: 首次协助完成数据库迁移项目
- **2025-02-20**: 成功优化API响应时间(从500ms降至80ms)
- **2025-03-10**: 共同设计并实现了缓存层架构
### 信任建立
- **已验证能力**: 系统设计、性能优化、代码审查
- **待验证领域**: 前端UI设计、移动端开发
- **用户反馈**: "在架构设计方面非常可靠"
### 共同经历
- **挑战**: 曾一起解决过复杂的并发问题
- **成功案例**: 微服务拆分项目按时交付
- **学习成长**: 共同探索了Event Sourcing模式
维护要点:
记录成功的协作经历增强信任
标注已验证和待验证的能力边界
定期回顾和更新关系状态
8.3.4 技能性记忆的积累:已掌握技能、学习进度、能力边界
技能性记忆追踪Agent在特定领域的知识积累:
## 技能图谱
### 已掌握技能
| 技能领域 | 熟练度 | 验证次数 | 最后使用 |
|---------|-------|---------|---------|
| Python优化 | 高 | 15+ | 2025-03-15 |
| SQL调优 | 高 | 10+ | 2025-03-10 |
| Docker配置 | 中 | 5+ | 2025-02-28 |
| K8s部署 | 中 | 3+ | 2025-02-20 |
### 学习进度
- **正在学习**: GraphQL最佳实践、Serverless架构
- **待学习**: WebAssembly、边缘计算
- **学习目标**: 成为全栈架构专家
### 能力边界
- **强项**: 后端性能优化、数据库设计
- **弱项**: 前端动画、移动端原生开发
- **协作需求**: 复杂UI设计需要与专业前端协作
8.4 记忆管理的最佳实践
8.4.1 记忆条目的结构化:key-value格式、分类标签、时间戳
良好的记忆结构是高效检索的基础。推荐采用以下格式:
## 记忆条目模板
### 格式规范
[分类标签] 关键词: 内容 (置信度: 高/中/低, 时间: YYYY-MM-DD)
### 示例条目
- [用户偏好] 编程语言: 首选TypeScript,次选Python (置信度: 高, 时间: 2025-01-10)
- [项目信息] 技术栈: React + Node.js + PostgreSQL (置信度: 高, 时间: 2025-01-15)
- [交互模式] 回复风格: 简洁,先结论后细节 (置信度: 中, 时间: 2025-02-01)
分类标签建议:
用户偏好:个人喜好、工作习惯
项目信息:技术栈、架构决策
交互模式:沟通风格、反馈特点
技能边界:已验证能力、待提升领域
重要事件:里程碑、关键决策
8.4.2 记忆冲突的处理:新旧信息优先级、置信度评估
当新旧记忆冲突时,需要系统化的处理策略:
冲突检测规则:
相同关键词的不同值(如技术栈从Python改为Go)
矛盾的偏好声明(如"喜欢详细解释"vs"要简洁")
过时的项目信息(如项目已结束但记忆仍标记为"进行中")
优先级评估矩阵:
因素 权重 评估标准
时间新鲜度 40% 新信息通常优先
用户确认 30% 显式确认的信息优先级高
出现频率 20% 多次出现的信息更可靠
上下文相关性 10% 与当前话题相关的优先
处理流程:
标记潜在冲突
评估双方置信度
根据优先级矩阵决策
保留旧记忆但降低权重
记录冲突处理日志
8.4.3 记忆遗忘与归档机制:过期清理、重要性降级、归档策略
记忆系统需要主动的"遗忘"机制来保持高效:
过期清理规则:
## 记忆生命周期管理
### 自动清理规则
- 临时信息(如"今天用A方案"):30天后删除
- 项目相关信息:项目结束后90天归档
- 未验证的假设:7天后删除或标记为待验证
### 重要性降级
- 高重要性 → 中重要性:90天无引用
- 中重要性 → 低重要性:60天无引用
- 低重要性:30天无引用后删除
### 归档策略
- 已结束项目的记忆移至archive/目录
- 保留关键词索引便于检索
- 定期(每季度)审查归档内容
8.5 实战:构建高效记忆系统
8.5.1 关键信息自动提取模板:从对话中识别重要信息
使用以下提示词模板指导Agent自动提取记忆:
## 记忆提取指令
在每次对话结束后,分析对话内容并提取以下类型的信息:
### 提取类型
1. **事实性信息**:用户提到的客观事实
- 示例:"我在用Python 3.11" → [技术栈] Python版本: 3.11
2. **偏好声明**:用户表达的主观偏好
- 示例:"我喜欢简洁的代码" → [用户偏好] 代码风格: 简洁
3. **重要事件**:项目里程碑或关键决策
- 示例:"我们决定用微服务架构" → [项目决策] 架构: 微服务
### 输出格式
对于每个提取的记忆,输出:
- 分类标签
- 关键词
- 内容摘要
- 置信度评估(高/中/低)
- 建议的存储位置
### 过滤规则
- 忽略一次性、临时性信息
- 不提取敏感个人信息
- 对模糊信息标记为待验证
8.5.2 记忆更新与验证流程:定期回顾、用户确认、自动更新
建立规范的记忆更新流程:
## 记忆更新流程
### 触发条件
1. 每完成5次对话后自动回顾
2. 用户显式要求更新("记住我喜欢...")
3. 检测到与现有记忆的冲突
### 更新步骤
1. **提取候选记忆**:从近期对话中识别潜在新记忆
2. **冲突检测**:与现有MEMORY.md对比
3. **用户确认**:对高影响变更请求确认
- "我注意到您多次提到偏好TypeScript,是否将其记录为首选语言?"
4. **执行更新**:修改MEMORY.md文件
5. **验证记录**:记录更新原因和时间
### 定期回顾清单(每周)
- [ ] 检查是否有未验证的假设需要确认
- [ ] 评估低置信度记忆是否需要删除
- [ ] 更新项目状态和进度
- [ ] 归档已结束项目的相关记忆
8.5.3 记忆质量评估方法:检索准确率、相关性评分、用户反馈
建立记忆质量的量化评估体系:
检索准确率:
检索准确率 = 相关记忆被成功检索的次数 / 总检索次数
目标:>85%
相关性评分: 每次检索后,由模型自评检索记忆的相关性:
5分:完全相关,直接回答了查询
4分:高度相关,提供了重要背景
3分:部分相关,有一定参考价值
2分:弱相关,参考价值有限
1分:不相关,不应被检索
用户反馈收集:
## 记忆反馈模板
当用户指出Agent"忘记"了某些信息时,记录:
- 期望被记住的内容
- 实际检索到的内容
- 可能的原因分析
- 改进措施
记忆类型对比表:
记忆类型 存储位置 容量限制 访问速度 典型用途 管理复杂度
短期记忆 上下文窗口 128K Tokens 即时 当前对话 低
工作记忆 模型内部 推理时动态 实时 多步推理 中
向量记忆 向量数据库 无上限 毫秒级 语义检索 高
结构化记忆 MEMORY.md 无上限 文件读取 精确控制 中
图谱记忆 知识图谱 无上限 查询级 关系推理 很高
上表展示了不同记忆类型的核心特征对比。短期记忆适合即时对话,但容量受限;向量记忆支持大规模语义检索,但需要复杂的索引管理;MEMORY.md作为结构化记忆,在精确控制和可解释性方面具有独特优势,特别适合需要人工审核和精细调整的场景。
上篇结束