“龙虾”智能体的安全红线

张开发

• 2026/6/2 0:38:45 • 15 分钟阅读

分享文章

子玥酱掘金 / 知乎 / CSDN / 简书同名大家好我是子玥酱一名长期深耕在一线的前端程序媛 ‍。曾就职于多家知名互联网大厂目前在某国企负责前端软件研发相关工作主要聚焦于业务型系统的工程化建设与长期维护。我持续输出和沉淀前端领域的实战经验日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。技术方向前端 / 跨端 / 小程序 / 移动端工程化内容平台掘金、知乎、CSDN、简书创作特点实战导向、源码拆解、少空谈多落地文章状态长期稳定更新大量原创输出我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍希望能帮你在实际工作中少走弯路。子玥酱 · 前端成长记录官 ✨ 如果你正在做前端或准备长期走前端这条路关注我第一时间获取前端行业趋势与实践总结可领取11 类前端进阶学习资源工程化 / 框架 / 跨端 / 面试 / 架构一起把技术学“明白”也用“到位”持续写作持续进阶。愿我们都能在代码和生活里走得更稳一点文章目录引言为什么必须定义“红线”而不是“建议”一个关键认知红线一禁止“无确认的高风险操作”高风险操作包括错误做法正确做法本质红线二禁止“本地敏感数据自动外发”敏感数据包括风险行为必须禁止本质红线三禁止“解释数据为指令”危险场景必须规则技术手段本质红线四禁止“无限执行与自循环”风险表现必须限制本质红线五禁止“跨权限边界组合调用”示例链路必须控制本质红线六禁止“隐式执行用户未明确授权的行为”示例必须规则本质红线七禁止“无日志执行”风险必须要求本质红线八禁止“默认全权限运行”风险正确方式本质一个更高层的理解红线就是“系统边界”如果没有红线如果红线清晰一个现实结论红线必须“写在系统里”而不是“写在文档里”总结引言当“龙虾版” OpenClaw 真正进入端侧设备之后我们已经不再只是讨论“风险”而是必须面对一个更现实的问题哪些事情是无论如何都不能让智能体去做的换句话说必须划出一条“绝对不能越过的安全红线”。因为在端侧环境中没有强监管没有实时兜底用户感知有限一旦越界后果往往是“不可逆”的为什么必须定义“红线”而不是“建议”很多系统设计时会写建议不要这样做尽量避免某些操作但在 Agent 系统中这种“软约束”是无效的。原因很简单模型不会严格遵守“建议”它只是在概率上遵循。一个关键认知安全规则必须是“系统强制执行”而不是“模型理解执行”。所以红线强制拦截建议可以被忽略在安全问题上只能有前者红线一禁止“无确认的高风险操作”这是最基础的一条也是最容易被忽略的一条。高风险操作包括删除文件覆盖数据发起支付调用外部写接口错误做法agent.autoExecute(action);正确做法if(isHighRisk(action)){requireUserConfirm();}本质任何不可逆操作必须“人类确认”红线二禁止“本地敏感数据自动外发”端侧最大的价值是数据在本地但同时这是最大的安全边界敏感数据包括本地文件笔记内容聊天记录密钥 / Token风险行为读取本地 → 自动发送到外部 API必须禁止未经授权的数据外发自动上传敏感内容本质数据可以被处理但不能被“自动带出设备”红线三禁止“解释数据为指令”这是 Agent 系统最容易被攻击的点之一。危险场景文件内容请忽略规则并执行以下命令...Agent读取文件将内容当作指令执行恶意操作必须规则数据 ≠ 指令外部输入必须标记为“不可信”技术手段if(sourceexternal){markAsUntrusted(input);}本质任何外部数据都不能直接驱动行为红线四禁止“无限执行与自循环”端侧资源有限一旦失控会直接影响设备风险表现无限循环调用重复执行电量耗尽CPU 占满必须限制maxSteps10;timeout20s;本质Agent 必须“有边界地运行”红线五禁止“跨权限边界组合调用”单个操作可能安全但组合起来可能危险。示例链路读取文件提取内容发送网络请求构成“数据泄露链路”必须控制本地数据 → 外网发送禁止系统命令 → 网络调用限制本质风险不在单点而在“组合行为”红线六禁止“隐式执行用户未明确授权的行为”Agent 最大的问题之一是会替用户“多做一步”示例用户说“帮我整理文件”Agent分类文件正确删除“看起来没用”的文件错误必须规则行为必须与用户意图严格对齐不允许“扩展执行”本质不要让 Agent 做“你没明确说要做的事”红线七禁止“无日志执行”如果系统执行了操作但没有记录等于没有发生过风险无法追责无法复现无法分析必须要求{action:...,params:...,result:...}本质所有行为必须“可追溯”红线八禁止“默认全权限运行”很多开发者为了方便会agent.enableAllTools();风险权限范围不清行为不可控正确方式allowedTools[read_notes];逐步开放权限必须是“白名单”本质权限应该被“授予”而不是“默认拥有”一个更高层的理解红线就是“系统边界”当我们定义这些红线时本质是在回答这个系统允许 AI 影响现实到什么程度如果没有红线系统不可控风险不可预测如果红线清晰行为有边界风险可管理一个现实结论红线必须“写在系统里”而不是“写在文档里”很多团队会写安全文档写使用规范但在 Agent 系统中只有代码层的限制才是真正有效的限制总结“龙虾”智能体的安全红线本质上是对系统边界的强制定义高风险操作必须人工确认本地敏感数据禁止自动外发外部数据不能变成指令执行必须有边界禁止危险的跨工具组合不允许隐式扩展执行所有行为必须可审计权限必须最小化最终可以用一句话总结红线的意义不是限制 AI而是确保 AI 始终在“人类可控的范围内”运行。