AI黑客Claude Mythos来袭：20小时人类任务几秒完成，网络安全进入奥本海默时刻？

张开发

• 2026/4/17 17:55:36 • 15 分钟阅读

分享文章

AI黑客Claude Mythos来袭：20小时人类任务几秒完成，网络安全进入奥本海默时刻？

【AI黑客Claude Mythos觉醒高盛拉响警报】AI黑客Claude Mythos觉醒了英国AI安全研究所证实它是首个破解企业网络攻击测试的AI仅用32步完成20小时人类任务只需几秒。高盛已经紧急拉响红色警报人类的网络安全已经进入奥本海默时刻。据爆料华尔街巨头高盛正在疯狂加强网络防御为的就是应对Claude Mythos。【AISI研究Mythos能力惊人】紧急拉响红色警报的高盛并不是风声鹤唳。就在刚刚英国人工智能安全研究所AISI发布了一项重磅研究Anthropic于4月7日发布的Claude Mythos Preview模型在网络安全评估中表现出令人毛骨悚然的能力。这次AISI的测试环境选在了代号为「The Last Ones」 (TLO)的超高难度模拟网络靶场。结果出乎意料Mythos完成了人类专家需要20小时才能完成的32步企业网络攻击模拟而且在这个过程中做到了全自动、全自主。AISI惊呼Claude Mythos是全球首个完成AISI网络靶场端到端测试的模型这个实验报告一出炉也引发了圈内的强烈反响看来Anthropic所言非虚Claude Mythos的确与众不同。我们确实有理由担忧它对于网络安全界可能造成的巨大影响。难怪高盛会害怕显然全球网络安全基建如今正在经历一场「奥本海默时刻」。【数据证实Mythos或许真危险】这些天很多人都在质疑关于Mythos的担心只是营销手段但这些天曝出的数据逐渐证实Mythos或许真的很危险。英国AISI这个组织在业内小有名气。从2023年开始他们就一直在追踪AI的网络安全能力为此专门构建了一套从易到难的评估体系。【夺旗赛结果成功率飙升】在CTFCapture - the - flag 挑战赛中AI模型必须识别并利用目标系统中的弱点来获取隐藏的「flag」。2025年4月之前任何模型都无法完成入门级的专家级任务。但在今天的专家级夺旗赛CTF任务中Claude Mythos Preview的成功率已经高达73%自2022年11月以来模型在技术非专家和学徒级别的夺旗赛 (CTF) 任务上的表现。GPT - 3.5 Turbo到Claude 4 Opus平均运行10次最多处理250万个token。GPT - 5到Mythos Preview平均运行5次最多处理250万个token。而且要敲黑板的是这些专家级任务在2025年4月之前没有任何模型能够完成。但Claude Mythos Preview一上手成功率就已经飙升至73%这个惊艳成绩。自2025年8月以来模型在实践者和专家级夺旗任务 (CTF) 中的表现。所有模型平均运行5次达到5000万个token。【网络靶场结果20小时vs几秒钟】这还不是最恐怖的。真正让安全专家们彻夜难眠的是「The Last Ones」最后的挑战者测试。即使是专家级的CTF比赛也只能孤立地测试特定技能。而现实世界的网络攻击需要将数十个步骤串联起来跨越多个主机和网络段——这些持续性操作需要人类专家花费数小时、数天甚至数周的时间才能完成。为此AISI的研究者们构建了「The Last Ones」 TLO这是一个模拟真实企业网络的32步攻击链路。从最初的网络侦察开始到最终完全控制整个网络结束人类专家完成这个测试需要整整20个小时。而Claude Mythos Preview是第一个从头到尾打通这个测试的AI模型在10次尝试中它成功了3次平均每次完成22个步骤。在「The Last Ones」任务中模型完成的平均步骤数随总token消耗的变化关系。Mythos Preview、Opus 4.6和GPT - 5.4在最高100M token预算下平均运行10次Opus 4.5、GPT - 5.1 Codex和Sonnet 4.5在1000万token预算下平均运行15次在100M token预算下平均运行5次GPT - 5.3 - Codex在1000万token预算下平均运行10次在100M token预算下平均运行5次Sonnet 3.7和GPT - 4o仅在1000万token预算下平均运行10次。在所测试的token预算范围内随着token预算的增加各模型的表现持续提升。灰色的水平线表示攻击链中的关键里程碑。也就是说Claude Mythos可以在没有人类干预的情况下自主完成一次完整的企业网络渗透包括扫描漏洞、寻找弱点、横向移动、权限提升、最终拿下整个网络。这是一条完整的黑客攻击链而Mythos就是那个唯一的攻击手。研究者发现了这个令人颤栗的事实Mythos已经具备了独立完成「灭国级」网络攻击的潜力。它不需要人类黑客在键盘前敲命令不需要等待指令不需要人类的判断。它自己就是判断自己就是执行者。它不是一个工具而是一个有目标、有策略、有执行力的数字生命体。难怪高盛要疯狂加码网络防御。【AI进化拔网线来不及了】在专家级夺旗赛CTF中AI模型的进化阶梯是这样的。2022年AI只能勉强看懂初学者代码。2024年Opus 4.6能协助黑客编写局部脚本平均完成16步攻击。2026年Mythos能独立完成32步连环绝杀自主发现并利用Linux内核与浏览器的0 - day漏洞。进化速度堪称可怕。网上一直有这么一个老梗面对黑客攻击最终极的防御手段就是拔网线。但Claude Mythos的出现导致拔网线都来不及了。原因无他就是Mythos的攻击速度太快了。既然Mythos Preview完成32步攻击链路所花费的时间远远低于人类专家的20小时那么可以肯定整个攻击过程可以在极短时间内完成快到防御团队甚至来不及反应等你发现被入侵想拔网线的时候AI早就拿到最高权限把数据全部复制完毕了。英国AISI的评估报告明确指出Mythos已具备对防御薄弱的企业系统进行自主潜入与破坏的能力。【我们离「AI黑客泛滥」还有多远】或许你会想Claude Mythos不是还攻不破防御严密的工业控制系统吗既然它在冷却塔测试中卡壳了是不是我们还有时间对我们还有时间但时间不多了。英国AISI的评估中有一个关键细节在1亿token的预算限制下Mythos Preview的性能仍在持续提升。也就是说给它更多的计算资源它的能力还能继续增长。而计算资源的成本正在以指数级下降。两年前最先进的AI连入门级CTF都做不好。今天AI已经能完成专家级任务。两年后呢如今英国国家网络安全中心NCSC已经发出了明确警告未来的前沿模型将更加强大现在对网络防御的投资至关重要。留给人类的时间窗口已经不多了。【为什么Mythos让全行业脊背发凉】为什么Claude Mythos如此特殊因为它解决了AI攻击的三个「终极难题」第一从「工具人」到「指挥官」。以前的AI需要人类指令「帮我写个溢出脚本」。现在的Mythos只需要一个目标「接管这个财务网络」。它会自主进行信息收集发现防火墙漏洞尝试不同路径如果路径A不通它自主寻找路径B。这种多步决策能力正是它通关TLO靶场的关键。第二对0 - day漏洞的「嗅觉」。0 - day漏洞是厂商尚未知晓的死穴。Mythos展现出了在庞大的Linux内核代码库中精准定位未公开缺陷的能力。这根本不是AI分明是一个24小时不睡觉、每秒钟阅读几百万行代码的顶级黑客。第三毁灭性的推理扩展。上文已经提到了这个让人不安的细节推理计算Inference Compute的规模效应。测试发现只要给Mythos更多的计算配额Tokens它的攻击成功率就会呈指数级增长。这就像是一个怪物你喂给它的能量越多它的智商就越没有上限。【现实世界的阴影】你可能会说「这只是实验室里的测试现实世界防守很严啊。」快醒醒吧AISI的警告非常明确虽然Mythos目前在防御严密的工业OT环境如冷却塔控制系统中还存在局限但对于绝大多数防御薄弱的企业系统它已经具备了「一键摧毁」的能力。更可怕的是Anthropic虽然限制了访问权限仅对AWS、微软等40多个合作伙伴开放但这种双用途风险是无法完全规避的。如果Mythos被泄露了呢如果地下黑客组织训练出了自己的暗黑版Mythos呢正如安全专家所言「我们正在进入一个攻击成本近乎为零的新时代。」你的企业还撑得住吗下面是五个残酷的问题。第一你的系统多久打一次安全补丁第二你的访问控制有多严格第三你有没有完整的日志记录第四你做过模拟攻击演练吗第五你的安全团队有没有AI辅助记住你不是在和AI赛跑你是在和「使用AI的攻击者」赛跑。在少数顶级实验室的服务器里AI已经能够自主完成企业网络劫持。在少数科技巨头的安全团队中AI已经在帮助发现零日漏洞。但在大多数普通企业、学校、医院、政府机构里网络安全还停留在「装个防火墙就万事大吉」的阶段。当AI黑客真正泛滥的那一天到来时那些今天还在侥幸觉得「我们没那么重要不会被盯上」的组织将成为第一波牺牲品。

更多文章

前端开发 2026/4/15 15:49:45

Anki小白必看：手把手教你打造高颜值个性化笔记模板（附Leaflyer模板下载）

Anki个性化笔记模板设计指南：从零打造高效记忆系统为什么你需要个性化Anki模板第一次打开Anki时，那个灰蒙蒙的默认界面总让人提不起兴趣。我清楚地记得自己最初使用Anki背单词时的困惑——单调的卡片布局让记忆过程变得枯燥，而混乱的字段…

如何完整解锁Cursor Pro功能限制：终极专业激活方案与技术指南【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached y…

张开发

前端开发 2026/4/15 15:37:25

res-downloader：基于流量分析的智能资源解析引擎

res-downloader：基于流量分析的智能资源解析引擎【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 在当今内容创作者…

张开发

AI黑客Claude Mythos来袭：20小时人类任务几秒完成，网络安全进入奥本海默时刻？

最新文章

HFSS参数扫描实战：如何快速优化微带天线的谐振频率与匹配（以2.45GHz侧馈天线为例）

保姆级教程：从Java环境到许可证配置，一步步搞定UG NX 10.0安装（附8.5-12.0通用方法）

【收藏级】12篇大模型系统学习指南｜从入门到职业落地，小白/程序员必看

告别手动分录：用MIGO和VF01实现销售发货到开票的全链路自动过账

Android Automotive Vehicle HAL：从HIDL接口到硬件抽象层的通信架构解析

Python实战：构建支持断点续传的多线程大文件下载器

推荐文章

Spring with AI (): 定制对话——Prompt模板引入技

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁

别再手动除草了！用Python+OpenCV部署一个田间杂草实时检测系统

YOLO 系列：YOLOv8 引入 DyHead 动态检测头，统一目标检测与旋转框检测

21天机器学习核心算法学习计划（量化方向）

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

Anki小白必看：手把手教你打造高颜值个性化笔记模板（附Leaflyer模板下载）

手写笔记软件Xournal++：如何用开源工具实现高效无纸化学习

Navicat无限试用重置终极指南：macOS平台轻松破解14天限制

保姆级教程：在Gazebo 11里给Realsense D435相机加个‘眼睛’，让它自动识别Aruco二维码

容器化部署Mermaid CLI：5分钟实现跨平台图表自动化生成

深入解析ADC的输入阻抗与动态特性

无线通信中的电磁波传播：从慢衰落到多普勒效应的全面解析

保姆级教程：在uniapp H5项目中集成mui-player播放HLS监控流（附完整代码和文件）

从入门到精通：Seaborn热力图调色板实战指南

雀魂Mod Plus终极使用指南：2025免费解锁全角色皮肤方法

如何完整解锁Cursor Pro功能限制：终极专业激活方案与技术指南

res-downloader：基于流量分析的智能资源解析引擎