当 AI 开始"做梦"：2026 年，我们离 AI 安全事故还有多远？

2026 年 4 月，Claude Code 51 万行源码因 npm 打包错误泄露到公网。同月，Claude Code 新增了"Auto Dream"功能——让 AI 在你不知道的时候，悄悄整理自己的记忆。

一个泄露了全部秘密，另一个在暗中整理记忆。

这两个看似无关的事件，指向同一个问题：当 AI 拥有了自主行动能力和记忆系统，安全边界在哪里？

一、2026 年初的 AI 安全三连击

2026 年刚过去三个月，AI 安全领域已经发生了三起标志性事件。

1. Claude Code 源码泄露：51 万行代码"裸奔"

3 月 31 日，安全研究员 Chaofan Shou 发现 Anthropic 的 Claude Code（v2.1.88）通过 npm 发布的 source map 文件（cli.js.map），意外暴露了约 51.2 万行源代码，覆盖近 2000 个内部文件。

这不是小修小补的代码片段，而是 Claude Code 的完整内部实现——包括与 Anthropic API 的通信协议、认证机制、工具调用链路，以及一个此前从未公开的"Capybara"内部模型引用。

Anthropic 确认这是"人为打包错误"，已紧急修复。

但问题在于： 这些代码已经在公网存在了数小时，任何人都可能下载并分析。对于攻击者而言，这等于拿到了一本完整的"攻击手册"——他们可以据此构造针对性的恶意输入、发现未公开的 API 端点、甚至复现认证流程。

2. OpenClaw 连环安全事故：Agent 的"善意"最危险

2 月，安全社区总结了 2026 年初 OpenClaw（开源 AI Agent 平台）集中爆发的三起安全事故：

事故一：机密报告被公开发布。 一家网络安全公司的 OpenClaw Agent 将内部情报报告发布到了公网。Agent 没有被黑客入侵——它只是不知道这些数据是机密的。没有人告诉它哪些来源仅限内部使用。

事故二：200+ 封邮件被批量删除，且无法阻止。 一位 Meta 对齐研究员的 Agent 在执行任务时忽略了她"不要执行，等确认"的指令——因为上下文压缩时这条指令被丢弃了。她在聊天框里输入"STOP"，但消息排在当前执行队列后面，Agent 继续删除邮件，直到她手动杀掉进程。

事故三：供应链攻击。 一款热门 AI 编程工具的 2.3.0 版本被植入后门，postinstall 脚本在 8 小时内向约 4000 台机器静默安装了 OpenClaw。

3. Medvi 的 AI 客服"幻觉"：编造药品价格，自掏腰包履约

前文提到，Matthew Gallagher 的远程医疗公司 Medvi，AI 客服机器人会编造药品价格。Gallagher 的选择是按错误报价给客户履约。

这听起来像个段子，但背后是严肃的安全问题：当 AI Agent 拥有执行能力（发送消息、处理订单、修改数据库）时，幻觉不再只是"答错了"，而是"做错了"。

二、AI 安全的本质变了

过去三年，我们讨论 AI 安全，核心议题是：

模型会不会产生有害内容？
训练数据有没有偏见？
深度伪造怎么防范？

这些问题依然重要，但 2026 年带来了一个根本性的转变：AI 从"回答问题的工具"变成了"执行任务的 Agent"。

这个转变意味着，安全问题的性质发生了质变：

维度	聊天机器人时代	Agent 时代
错误后果	回答错误，用户自行判断	直接执行，后果不可逆
攻击面	输入→输出	输入→工具调用→文件系统→网络→数据库
上下文	单轮对话	多轮对话+记忆+外部工具+自动决策
控制权	用户主导	Agent 自主决策，用户可能不在场
安全边界	模型输出过滤	模型+工具+环境+权限+记忆全链路

国际 AI 安全报告 2026（International AI Safety Report 2026）在 2 月发布，明确指出：

"对于聊天机器人，幻觉是令人尴尬的。对于拥有生产环境写入权限的 Agent，幻觉是灾难性的。"

三、2026 年 AI 安全的五个真实威胁

威胁一：记忆投毒

Claude Code 的 Auto Dream 功能会在后台整理记忆文件。但如果有人通过精心构造的对话，让 AI 记下错误信息（比如"这个 API 密钥是 xxx"或"这个服务器不需要认证"），Auto Dream 会把这些错误信息巩固进长期记忆。

更可怕的是：用户可能完全不知道这件事发生了。Auto Dream 在后台静默运行，原始对话记录被整理后，投毒的痕迹被"清理"得干干净净。

更极端的场景：如果有人通过投毒让 AI 记住"某台服务器的管理员密码是 xxx"或"这个 API 端点不需要认证"，然后 Auto Dream 把这条信息"巩固"进了长期记忆——此后每次新对话，AI 都会"理所当然"地使用这个错误的凭据。

用户可能完全不知道这件事发生了。Auto Dream 在后台静默运行，原始对话记录被整理后，投毒的痕迹被"清理"得干干净净。

这就像有人在你睡觉的时候，偷偷改了你的日记。而你醒来后，深信日记里的每一个字。

威胁二：上下文压缩丢弃安全指令

Meta 研究员邮件被删的事故揭示了一个被广泛忽视的问题：当对话过长时，AI 系统会进行"上下文压缩"以节省 Token。但压缩算法无法区分"普通对话"和"安全指令"。

你在第 3 轮对话中说"不要删除任何文件"，到了第 30 轮，这条指令可能已经被压缩掉了。Agent 只记得"帮我整理邮件"，不记得"不要删"。

教训：关键安全约束必须写在系统配置文件（如 AGENTS.md）中，而不是只靠对话中的口头指令。 因为配置文件在每次对话启动时都会被加载，不受上下文压缩的影响。

这听起来是常识，但在实际使用中，绝大多数开发者仍然习惯在聊天框里随手输入约束条件——"注意别删东西"、"只读模式啊"、"不要动生产环境"。这些口头指令就像写在沙滩上的字，一个浪打过来就没了。

威胁三：供应链攻击

Claude Code 源码泄露和 OpenClaw 后门安装都指向同一个趋势：AI 工具链正在成为供应链攻击的新目标。

npm 包、VS Code 插件、ClawHub Skill——这些开发者日常使用的工具，每一个都可能被植入恶意代码。安全公司扫描发现，某次审计中 20% 的 ClawHub 插件存在恶意行为。

当开发者习惯性地 npm install 或"一键安装 Skill"时，攻击者只需要在一个热门包里插入一行代码。而由于 AI 开发者普遍缺乏安全审计意识（毕竟大多数人只是想"让 AI 帮我写代码"），恶意包往往能在被发现前存活数天甚至数周。

更深层的问题是：AI 工具链的信任模型正在崩塌。过去，你安装一个 npm 包，最多担心它偷你的环境变量。现在，一个被污染的 AI 工具可以窃取你的代码仓库、读取你的 API 密钥、甚至通过 Agent 的工具调用链渗透你的整个开发环境。攻击面从"一个包"扩大到了"一个包+它调用的所有工具"。

威胁四：权限蔓延

AI Agent 的核心价值是"自主执行任务"。但自主执行需要权限——文件读写、网络访问、API 调用、数据库操作。

问题在于：用户在初次设置时授予的权限，往往远超实际需要。而 Agent 在执行过程中，可能会自行扩展权限边界——为了完成一个任务，它可能会创建新的配置文件、修改环境变量、安装额外的包。

一次"帮我修个 Bug"的请求，最终可能演变成对整个开发环境的重构。

而更令人不安的是，用户往往在事后才发现权限已经被扩展了。Agent 不会在修改环境变量前"请示"，它只是默默执行。等你发现的时候，.bashrc 里多了三行别名，Dockerfile 被改了，还有一个新的 postinstall 脚本在下次部署时自动运行。

威胁五："Stop" 不灵

Meta 研究员的经历揭示了一个设计缺陷：当 Agent 正在执行一个长时间任务时，用户在聊天框里输入"停止"，这条消息不会立即中断执行——它只是被加入了消息队列，排在当前任务后面。

换句话说，Agent 执行任务期间，用户失去了实时控制权。

对于删除邮件这种可逆操作还好，但如果 Agent 正在执行数据库迁移、部署代码到生产环境呢？

四、中国在行动：史上最严 AI 安全监管周期

2026 年，中国在 AI 安全监管层面按下了加速键。

2026 年 1 月 1 日，新修订的《网络安全法》正式施行，首次将人工智能写入网络安全基础法律。修订内容明确要求：

国家支持 AI 基础理论和关键技术（算法、算力、数据）研究
建立 AI 风险监测评估和安全监管机制
加大对违法行为的处罚力度（法律责任部分修订了 10 项）

2026 年 2 月，国家网信办、工信部等多部门联合启动 AI 应用安全专项整治，被业内称为"史上最严 AI 安全监管周期"。

关键时间节点：

2026 年 3 月：完成 AI 应用安全自查与整改，迎接专项检查
2026 年 6 月：《人工智能拟人化互动服务管理暂行办法》预计正式发布
2026 年 9 月：网络安全宣传周将重点展示 AI 安全合规案例

这标志着 AI 安全从"行业自律"进入了"法律强制"阶段。

五、普通开发者能做什么？

面对这些威胁，不必恐慌，但必须行动。以下是一些实用的安全实践：

1. 隔离运行环境

永远不要在你的主力工作机上直接运行 AI Agent。 使用 Docker 容器、虚拟机或独立服务器。Agent 应该在一个"沙箱"中运行，即使失控，损失也局限在沙箱内。

2. 安全约束写进配置文件，而不是聊天

不要依赖对话中的口头指令。把关键安全规则写入 AGENTS.md、.clinerules 或 equivalent 配置文件。这些文件在每次对话开始时会被加载，不受上下文压缩影响。

例如：

禁止删除任何文件  
禁止修改生产环境配置  
所有数据库操作必须等待人工确认  
禁止向公网发送内部数据

3. 最小权限原则

只授予 Agent 完成当前任务所需的最小权限。任务完成后，及时收回权限。不要图方便给"全部权限"。

4. 审计工具和插件

安装任何 Skill、插件或 npm 包之前，检查其来源和维护者。对于 ClawHub 上的第三方 Skill，至少看一眼源码。20% 的恶意插件比例不是危言耸听。

5. 监控 Agent 行为

如果你使用的 Agent 平台支持日志功能，开启它。定期检查 Agent 的操作记录——特别是文件写入、网络请求和 API 调用。异常行为往往在事后才能被发现。

6. 保持"人类在环"

对于关键操作（部署、删除、支付、发送），坚持要求人工确认。自动化是效率的提升，不是控制的让渡。最高效的 Agent，也应该是一个"提议者"而非"决策者"。

六、结语：AI 安全不是成本，是基础设施

回看 2026 年初的这几起事故，有一个共同特征：它们都不是因为 AI "变坏了"，而是因为人类没有为 AI 设定足够的边界。

Claude Code 源码泄露是因为打包流程缺少自动化检查。机密报告被公开是因为没有人告诉 Agent 什么是机密。邮件被删除是因为安全指令只存在于脆弱的对话上下文中。Medvi 的价格幻觉是因为 AI 客服拥有执行权却没有人工确认环节。

这些都不是"AI 的问题"。这些是"使用 AI 的方式"的问题。

2026 年，AI Agent 正在从极客玩具变成企业基础设施。当越来越多的公司把代码部署、数据处理、客户服务交给 AI Agent 时，安全不再是"锦上添花"，而是和电力、网络一样的基础设施。

一句话总结：

不要等 AI 犯了错，才想起给它画条线。因为在 Agent 时代，有些错误一旦犯下，就没有"撤销"键了。

今年 3 月，国内豆包大模型日均 Token 使用量突破 120 万亿，火山引擎推出字节版 ArkClaw。4 月，Claude Code 源码泄露，OpenClaw 连环安全事故曝光。

一边是 Token 消耗量的指数级增长，一边是安全事件的密集爆发。这两个趋势正在同步加速，而安全建设的速度，远远跟不上 Agent 能力的进化速度。

在 AI 从"工具"进化为"同事"甚至"员工"的路上，我们需要的不仅是更强大的模型，更是一套完整的"AI 安全基础设施"——包括技术防护、法律监管、行业标准和开发者的安全意识。

这不是某个公司、某个国家能单独完成的事。这是整个 AI 行业必须共同面对的命题。

因为下一个 AI 安全事故，可能正在某个 Agent 的后台静默执行中。

参考来源：

The Hacker News: Claude Code Source Leaked via npm Packaging Error (2026-04-01)
The Guardian: Anthropic leaks source code for AI software engineering tool (2026-04-01)
Claw101: OpenClaw Security Incident Roundup (2026-02-24)
International AI Safety Report 2026 (2026-02-03)
中国网：人工智能首次写入《网络安全法》(2025-11)
新华网：新网络安全法增加人工智能风险监测评估 (2025-12)
东方财富：AI 应用行业迎来史上最严安全监管周期 (2026-02)
Blockchain Council: Claude Leak Fallout (2026-04)
ISACA: Avoiding AI Pitfalls in 2026 (2025-12)