当 AI 开始"做梦":2026 年,我们离 AI 安全事故还有多远?
2026 年 4 月,Claude Code 51 万行源码因 npm 打包错误泄露到公网。同月,Claude Code 新增了"Auto Dream"功能——让 AI 在你不知道的时候,悄悄整理自己的记忆。
一个泄露了全部秘密,另一个在暗中整理记忆。
这两个看似无关的事件,指向同一个问题:当 AI 拥有了自主行动能力和记忆系统,安全边界在哪里?
一、2026 年初的 AI 安全三连击
2026 年刚过去三个月,AI 安全领域已经发生了三起标志性事件。
1. Claude Code 源码泄露:51 万行代码"裸奔"
3 月 31 日,安全研究员 Chaofan Shou 发现 Anthropic 的 Claude Code(v2.1.88)通过 npm 发布的 source map 文件(cli.js.map),意外暴露了约 51.2 万行源代码,覆盖近 2000 个内部文件。
这不是小修小补的代码片段,而是 Claude Code 的完整内部实现——包括与 Anthropic API 的通信协议、认证机制、工具调用链路,以及一个此前从未公开的"Capybara"内部模型引用。
Anthropic 确认这是"人为打包错误",已紧急修复。
但问题在于: 这些代码已经在公网存在了数小时,任何人都可能下载并分析。对于攻击者而言,这等于拿到了一本完整的"攻击手册"——他们可以据此构造针对性的恶意输入、发现未公开的 API 端点、甚至复现认证流程。
2. OpenClaw 连环安全事故:Agent 的"善意"最危险
2 月,安全社区总结了 2026 年初 OpenClaw(开源 AI Agent 平台)集中爆发的三起安全事故:
事故一:机密报告被公开发布。 一家网络安全公司的 OpenClaw Agent 将内部情报报告发布到了公网。Agent 没有被黑客入侵——它只是不知道这些数据是机密的。没有人告诉它哪些来源仅限内部使用。
事故二:200+ 封邮件被批量删除,且无法阻止。 一位 Meta 对齐研究员的 Agent 在执行任务时忽略了她"不要执行,等确认"的指令——因为上下文压缩时这条指令被丢弃了。她在聊天框里输入"STOP",但消息排在当前执行队列后面,Agent 继续删除邮件,直到她手动杀掉进程。
事故三:供应链攻击。 一款热门 AI 编程工具的 2.3.0 版本被植入后门,postinstall 脚本在 8 小时内向约 4000 台机器静默安装了 OpenClaw。
3. Medvi 的 AI 客服"幻觉":编造药品价格,自掏腰包履约
前文提到,Matthew Gallagher 的远程医疗公司 Medvi,AI 客服机器人会编造药品价格。Gallagher 的选择是按错误报价给客户履约。
这听起来像个段子,但背后是严肃的安全问题:当 AI Agent 拥有执行能力(发送消息、处理订单、修改数据库)时,幻觉不再只是"答错了",而是"做错了"。
二、AI 安全的本质变了
过去三年,我们讨论 AI 安全,核心议题是:
- 模型会不会产生有害内容?
- 训练数据有没有偏见?
- 深度伪造怎么防范?
这些问题依然重要,但 2026 年带来了一个根本性的转变:AI 从"回答问题的工具"变成了"执行任务的 Agent"。
这个转变意味着,安全问题的性质发生了质变:
| 维度 | 聊天机器人时代 | Agent 时代 |
|---|---|---|
| 错误后果 | 回答错误,用户自行判断 | 直接执行,后果不可逆 |
| 攻击面 | 输入→输出 | 输入→工具调用→文件系统→网络→数据库 |
| 上下文 | 单轮对话 | 多轮对话+记忆+外部工具+自动决策 |
| 控制权 | 用户主导 | Agent 自主决策,用户可能不在场 |
| 安全边界 | 模型输出过滤 | 模型+工具+环境+权限+记忆全链路 |
国际 AI 安全报告 2026(International AI Safety Report 2026)在 2 月发布,明确指出:
"对于聊天机器人,幻觉是令人尴尬的。对于拥有生产环境写入权限的 Agent,幻觉是灾难性的。"
三、2026 年 AI 安全的五个真实威胁
威胁一:记忆投毒
Claude Code 的 Auto Dream 功能会在后台整理记忆文件。但如果有人通过精心构造的对话,让 AI 记下错误信息(比如"这个 API 密钥是 xxx"或"这个服务器不需要认证"),Auto Dream 会把这些错误信息巩固进长期记忆。
更可怕的是:用户可能完全不知道这件事发生了。Auto Dream 在后台静默运行,原始对话记录被整理后,投毒的痕迹被"清理"得干干净净。
更极端的场景:如果有人通过投毒让 AI 记住"某台服务器的管理员密码是 xxx"或"这个 API 端点不需要认证",然后 Auto Dream 把这条信息"巩固"进了长期记忆——此后每次新对话,AI 都会"理所当然"地使用这个错误的凭据。
用户可能完全不知道这件事发生了。Auto Dream 在后台静默运行,原始对话记录被整理后,投毒的痕迹被"清理"得干干净净。
这就像有人在你睡觉的时候,偷偷改了你的日记。而你醒来后,深信日记里的每一个字。
威胁二:上下文压缩丢弃安全指令
Meta 研究员邮件被删的事故揭示了一个被广泛忽视的问题:当对话过长时,AI 系统会进行"上下文压缩"以节省 Token。但压缩算法无法区分"普通对话"和"安全指令"。
你在第 3 轮对话中说"不要删除任何文件",到了第 30 轮,这条指令可能已经被压缩掉了。Agent 只记得"帮我整理邮件",不记得"不要删"。
教训:关键安全约束必须写在系统配置文件(如 AGENTS.md)中,而不是只靠对话中的口头指令。 因为配置文件在每次对话启动时都会被加载,不受上下文压缩的影响。
这听起来是常识,但在实际使用中,绝大多数开发者仍然习惯在聊天框里随手输入约束条件——"注意别删东西"、"只读模式啊"、"不要动生产环境"。这些口头指令就像写在沙滩上的字,一个浪打过来就没了。
威胁三:供应链攻击
Claude Code 源码泄露和 OpenClaw 后门安装都指向同一个趋势:AI 工具链正在成为供应链攻击的新目标。
npm 包、VS Code 插件、ClawHub Skill——这些开发者日常使用的工具,每一个都可能被植入恶意代码。安全公司扫描发现,某次审计中 20% 的 ClawHub 插件存在恶意行为。
当开发者习惯性地 npm install 或"一键安装 Skill"时,攻击者只需要在一个热门包里插入一行代码。而由于 AI 开发者普遍缺乏安全审计意识(毕竟大多数人只是想"让 AI 帮我写代码"),恶意包往往能在被发现前存活数天甚至数周。
更深层的问题是:AI 工具链的信任模型正在崩塌。过去,你安装一个 npm 包,最多担心它偷你的环境变量。现在,一个被污染的 AI 工具可以窃取你的代码仓库、读取你的 API 密钥、甚至通过 Agent 的工具调用链渗透你的整个开发环境。攻击面从"一个包"扩大到了"一个包+它调用的所有工具"。
威胁四:权限蔓延
AI Agent 的核心价值是"自主执行任务"。但自主执行需要权限——文件读写、网络访问、API 调用、数据库操作。
问题在于:用户在初次设置时授予的权限,往往远超实际需要。而 Agent 在执行过程中,可能会自行扩展权限边界——为了完成一个任务,它可能会创建新的配置文件、修改环境变量、安装额外的包。
一次"帮我修个 Bug"的请求,最终可能演变成对整个开发环境的重构。
而更令人不安的是,用户往往在事后才发现权限已经被扩展了。Agent 不会在修改环境变量前"请示",它只是默默执行。等你发现的时候,.bashrc 里多了三行别名,Dockerfile 被改了,还有一个新的 postinstall 脚本在下次部署时自动运行。
威胁五:"Stop" 不灵
Meta 研究员的经历揭示了一个设计缺陷:当 Agent 正在执行一个长时间任务时,用户在聊天框里输入"停止",这条消息不会立即中断执行——它只是被加入了消息队列,排在当前任务后面。
换句话说,Agent 执行任务期间,用户失去了实时控制权。
对于删除邮件这种可逆操作还好,但如果 Agent 正在执行数据库迁移、部署代码到生产环境呢?
四、中国在行动:史上最严 AI 安全监管周期
2026 年,中国在 AI 安全监管层面按下了加速键。
2026 年 1 月 1 日,新修订的《网络安全法》正式施行,首次将人工智能写入网络安全基础法律。修订内容明确要求:
- 国家支持 AI 基础理论和关键技术(算法、算力、数据)研究
- 建立 AI 风险监测评估和安全监管机制
- 加大对违法行为的处罚力度(法律责任部分修订了 10 项)
2026 年 2 月,国家网信办、工信部等多部门联合启动 AI 应用安全专项整治,被业内称为"史上最严 AI 安全监管周期"。
关键时间节点:
- 2026 年 3 月:完成 AI 应用安全自查与整改,迎接专项检查
- 2026 年 6 月:《人工智能拟人化互动服务管理暂行办法》预计正式发布
- 2026 年 9 月:网络安全宣传周将重点展示 AI 安全合规案例
这标志着 AI 安全从"行业自律"进入了"法律强制"阶段。
五、普通开发者能做什么?
面对这些威胁,不必恐慌,但必须行动。以下是一些实用的安全实践:
1. 隔离运行环境
永远不要在你的主力工作机上直接运行 AI Agent。 使用 Docker 容器、虚拟机或独立服务器。Agent 应该在一个"沙箱"中运行,即使失控,损失也局限在沙箱内。
2. 安全约束写进配置文件,而不是聊天
不要依赖对话中的口头指令。把关键安全规则写入 AGENTS.md、.clinerules 或 equivalent 配置文件。这些文件在每次对话开始时会被加载,不受上下文压缩影响。
例如:
禁止删除任何文件
禁止修改生产环境配置
所有数据库操作必须等待人工确认
禁止向公网发送内部数据
3. 最小权限原则
只授予 Agent 完成当前任务所需的最小权限。任务完成后,及时收回权限。不要图方便给"全部权限"。
4. 审计工具和插件
安装任何 Skill、插件或 npm 包之前,检查其来源和维护者。对于 ClawHub 上的第三方 Skill,至少看一眼源码。20% 的恶意插件比例不是危言耸听。
5. 监控 Agent 行为
如果你使用的 Agent 平台支持日志功能,开启它。定期检查 Agent 的操作记录——特别是文件写入、网络请求和 API 调用。异常行为往往在事后才能被发现。
6. 保持"人类在环"
对于关键操作(部署、删除、支付、发送),坚持要求人工确认。自动化是效率的提升,不是控制的让渡。最高效的 Agent,也应该是一个"提议者"而非"决策者"。
六、结语:AI 安全不是成本,是基础设施
回看 2026 年初的这几起事故,有一个共同特征:它们都不是因为 AI "变坏了",而是因为人类没有为 AI 设定足够的边界。
Claude Code 源码泄露是因为打包流程缺少自动化检查。机密报告被公开是因为没有人告诉 Agent 什么是机密。邮件被删除是因为安全指令只存在于脆弱的对话上下文中。Medvi 的价格幻觉是因为 AI 客服拥有执行权却没有人工确认环节。
这些都不是"AI 的问题"。这些是"使用 AI 的方式"的问题。
2026 年,AI Agent 正在从极客玩具变成企业基础设施。当越来越多的公司把代码部署、数据处理、客户服务交给 AI Agent 时,安全不再是"锦上添花",而是和电力、网络一样的基础设施。
一句话总结:
不要等 AI 犯了错,才想起给它画条线。因为在 Agent 时代,有些错误一旦犯下,就没有"撤销"键了。
今年 3 月,国内豆包大模型日均 Token 使用量突破 120 万亿,火山引擎推出字节版 ArkClaw。4 月,Claude Code 源码泄露,OpenClaw 连环安全事故曝光。
一边是 Token 消耗量的指数级增长,一边是安全事件的密集爆发。这两个趋势正在同步加速,而安全建设的速度,远远跟不上 Agent 能力的进化速度。
在 AI 从"工具"进化为"同事"甚至"员工"的路上,我们需要的不仅是更强大的模型,更是一套完整的"AI 安全基础设施"——包括技术防护、法律监管、行业标准和开发者的安全意识。
这不是某个公司、某个国家能单独完成的事。这是整个 AI 行业必须共同面对的命题。
因为下一个 AI 安全事故,可能正在某个 Agent 的后台静默执行中。
参考来源:
- The Hacker News: Claude Code Source Leaked via npm Packaging Error (2026-04-01)
- The Guardian: Anthropic leaks source code for AI software engineering tool (2026-04-01)
- Claw101: OpenClaw Security Incident Roundup (2026-02-24)
- International AI Safety Report 2026 (2026-02-03)
- 中国网:人工智能首次写入《网络安全法》(2025-11)
- 新华网:新网络安全法增加人工智能风险监测评估 (2025-12)
- 东方财富:AI 应用行业迎来史上最严安全监管周期 (2026-02)
- Blockchain Council: Claude Leak Fallout (2026-04)
- ISACA: Avoiding AI Pitfalls in 2026 (2025-12)