大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

近期Anthropic 发布了Claude Mythos，这是该公司发布的最新通用语言大模型。公开信息显示，该模型已在OpenBSD中发现了潜伏长达27年的零日漏洞，并在FFmpeg中识别出一个逃过数百万次自动化测试、存在16年之久的历史漏洞。基于这些最新进展，我们团队进一步提出多个核心问题：

大语言模型为何能够在漏洞挖掘任务中展现出如此能力？其能力边界何在？又为何仍在持续快速演进？

围绕上述问题，我们团队从三个典型应用场景出发开展了系统性分析：白盒代码审计、灰盒二进制分析以及黑盒漏洞扫描。三个场景按可获取信息量依次递减：白盒具备完整源代码，灰盒仅有编译后的二进制表示，黑盒则对内部实现完全不可见。大模型在三类场景中的作用机制各有差异：白盒场景下能力演进路径相对清晰；灰盒场景下需跨越从机器码到语义理解的关键鸿沟；黑盒场景下的价值则更多体现在系统级策略与交互流程设计上。

白盒场景：大模型如何介入代码级漏洞挖掘

白盒漏洞挖掘，即基于全量源代码的安全审计，是大模型介入最早、演进最清晰的领域。要理解大模型为什么能做这件事，得先搞清楚以前的方法到底卡在哪里。

1.1 传统方法的瓶颈

传统的白盒漏洞挖掘主要依赖两类工具：静态应用安全测试（SAST）和源码辅助的模糊测试（Fuzzing）。它们各有困境，但核心问题都是相同的，即缺乏对代码的语义理解能力。

SAST工具的工作原理是把代码转成抽象语法树和数据流图，然后用预定义的规则去匹配已知的漏洞模式。问题在于，它只能理解代码的“语法结构”和“数据流向”，完全不理解代码背后的业务逻辑。一个复杂的越权漏洞在语法层面可能完全合法；一段实际已经被框架安全机制保护的代码，照样会被标记为高危。结果就是误报率极高，工业级部署中误报率经常超过90%，安全团队大量精力耗在人工甄别上。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

与高误报率并存的是严重的漏报问题。SAST的检测能力完全取决于规则库的覆盖范围，而规则库本质上是已知漏洞模式的枚举，即每一条规则背后都是一个已经被发现、分析、总结的历史漏洞。对于从未出现过的新型漏洞类型、特定业务逻辑下才会暴露的安全缺陷，或需要跨多个操作组合才能触发的复杂漏洞，规则库里没有对应条目，工具就是零检出。这意味着SAST天然滞后于攻击者：攻击者每发现一类新的漏洞利用方式，防御侧的规则库才能跟进更新，而在这个窗口期内，工具对这类漏洞完全视而不见。

除了误报与漏报问题，SAST还有几个更深层的局限：

◾️编程语言本身的动态性：很多运行时行为在静态分析阶段根本无法获知，导致数据流追踪链路的断裂。

◾️时序与并发语义的缺失：竞态条件类漏洞的本质是两个各自合法的操作之间存在危险的时间窗口，SAST工具无法捕捉这种时序层面的缺陷。

◾️多语言交互的边界问题：现代软件大量使用跨语言接口，而SAST工具通常只在单一语言边界内分析，跨语言的数据流传递几乎完全丢失。

三个问题指向同一个根源，即传统的SAST工具理解的是代码层级语法，不是语义和运行时的行为。

符号执行和基于源码的Fuzzing面临的则是纯粹的计算复杂度瓶颈。符号执行理论上可以探索程序的所有可执行路径，但一遇到深层循环、加密函数，路径数量指数级爆炸，加之约束求解本身就是NP难问题，SMT求解器直接超时。覆盖率引导的Fuzzing也类似，前期对于路径的覆盖率涨得快，后期再多算力用于对于输入的变异也只能换来微乎其微的边缘探索。根本原因在于Fuzzing依赖随机变异来触发新路径，对于需要满足特定条件才能进入的分支，纯粹的随机变异几乎不可能碰对，而Fuzzing本身对“这个分支需要什么样的输入”毫无理解。

总的来说，传统工具在面对现代大型软件时，要么看不懂（SAST），要么跑不动（Fuzzing）。

1.2 大模型介入后的演进过程

大模型在白盒漏洞挖掘中的角色经历了几个明显的阶段，每个阶段的突破点不同，但内在逻辑是连贯的，即随着模型自身能力的提升，外围工程框架的复杂度在不断降低。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

早期混合阶段（约2023-2024年初），大模型主要扮演传统工具的“下游处理器”。先用传统SAST工具扫一遍产生大量告警，然后把可疑代码片段喂给大模型做二次确认，利用模型的语义理解来过滤误报。受限于当时4K至32K Token的上下文窗口，模型只能处理切割后的局部代码，全局视野完全丧失。这一模式虽可过滤高达91%的误报，但对跨文件漏洞无能为力。典型的例子是Use-After-Free：内存在一个文件中分配、在另一个文件中释放、在第三个文件中被异常重用，三个操作单独看都合法，只有全局视野才能识别危险。

多智能体框架阶段（约2024年中到2025年初），人们试图用工程手段弥补模型能力的不足。核心思路是把复杂任务拆解给多个角色，包括读代码、写攻击脚本、跑沙箱测试、分析失败原因，通过角色分离和记忆隔离避免上下文污染。VulnSage框架通过这种多智能体协作在真实软件中独立验证了146个零日漏洞。但这种方案本质上是以高昂的工程复杂度换取模型能力的临时补位：Agent 间的信息传递有损，复杂结论被压缩为自然语言后细节不可避免地流失；上游的误判也会沿流水线放大，下游无从甄别输入是否可信。

当前的质变阶段（2025年下半年至今），随着百万级上下文和面向安全的强化学习的成熟，整个范式发生了根本性转变。业内有句感慨颇能说明问题：“我已经想从多Agent回归单Agent了，Harness生成速度赶不上模型进化速度。”Harness指的是为驱动模型完成复杂任务而搭建的外围代码、提示词链条与编排逻辑。言下之意：花三个月搭好的五智能体协作框架，新一代模型一发布，直接扔代码进去，零样本一遍跑完，漏洞分析和PoC一并给出——之前那套反而成了拖累。当基座模型足够强大，为弥补其不足而设计的复杂编排本身就变成了信息损耗。

以Claude Opus 4.6和Google DeepMind的Big Sleep为代表，当前最前沿的实践已经回到了相对简洁的架构。Big Sleep只给模型提供了三个基础工具：代码浏览器、Python沙箱和调试器，模型自己完成从读代码到提出假设、写测试脚本、分析执行结果的完整闭环，在SQLite中发现了一个隐藏极深的零日漏洞。尽管Big Sleep团队自己也指出，针对性设计的定向Fuzzer未必不能发现类似问题，但这个漏洞确实逃过了包括OSS-Fuzz在内的主流覆盖率引导Fuzzing工具的检测。Claude Opus 4.6同样采用类似的简洁框架，已在开源生态中挖出了超过500个此前未知的高危零日漏洞。

1.3 从演进过程中看：大模型的核心能力是什么

回顾上面的演进过程，可以比较清楚地看到，大模型能做漏洞挖掘，根本原因是几个维度的能力叠加，而这些能力的不断增强直接推动了范式的演变。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

第一，海量先验知识的压缩。大模型在预训练阶段几乎吃下了互联网上的开源代码库、历年CVE漏洞报告、补丁对比（Patch Diffs）、CTF赛题解析等海量数据，这些知识被压缩进神经网络的权重里。它不是死记硬背，而是在海量数据中学到了对危险代码模式的泛化能力–即使面对训练数据中从未出现过的新代码，也能识别出潜在的危险内存操作、不良的函数调用或脆弱的接口设计。人类安全研究员一辈子能审计的代码量是有限的，但模型见过的代码量远超任何个人。这是模型从一开始就能作为"辅助过滤器"发挥作用的基础。

第二，从语法到语义的理解跨越。这是相对传统工具最本质的区别。传统扫描器只能追踪数据从A节点到B节点的流动，大模型则能同时理解自然语言和代码，具备真正的语义感知力–它能看懂变量命名的意图，能理解函数的上下文，甚至能读懂旁边的注释。当模型理解了某段代码是用于"验证用户支付状态"时，它就能推演出潜在的安全不变量，并察觉到可能打破这些不变量的边缘输入。甚至能在不实际执行代码的情况下模拟程序运行，推断特定输入在各条路径上将产生的行为。这种理解力使它能发现传统规则根本无法定义的深层逻辑缺陷，也是早期模型就能过滤掉91%误报的原因。

第三，超长上下文带来的全局视野。高危漏洞往往隐藏极深–外部输入从A文件进入，经过B文件的层层转化，最终在C文件的底层调用中触发问题。早期模型受限于几千Token的上下文根本做不了跨文件分析，所以才需要切片、拼接、多智能体协作这些手段。而现在前沿模型的上下文窗口动辄上百万Token，可以直接把整个代码仓库纳入视野。这种全局视野使得模型能在内部建立跨越数十个模块的完整污点传播链路。而且超长上下文不仅意味着更大的阅读量，还意味着模型在推理过程中能"记住"更多中间状态–它可以同时保持对多条潜在攻击路径的追踪，不会因为上下文截断而丢失关键线索。上下文能力的跃升，是整个范式从"多Agent拼凑"走向"单体闭环"的最关键推动力。

第四，面向安全的强化学习。不同于普通大模型通过RLHF学习如何礼貌回答问题，现有安全模型经历了专门的安全目标强化学习训练。奖励函数很直接：成功找到可利用的漏洞并触发就能获得高分。通过在虚拟靶场中无数次自动化试错，模型习得了对危险代码模式的敏锐直觉。最新的前沿模型还实现了隐式思维链（Implicit CoT），推理过程不再逐步输出文本，而是在深层隐藏状态中进行高效的并行计算，进一步提升了推理效率和严密性。

第五，高纯度的安全数据微调。这些数据不仅包括公开的CVE库，还包括历史上复杂的补丁对比、顶级安全会议的底层技术分析等高质量资料，使模型掌握了极高密度的系统级编程和底层架构知识。同时使得模型不仅能识别已知漏洞模式，还能在全新的代码库中举一反三，发现从未在训练数据中出现过的漏洞类型。

1.4 Mythos：模型能力质变的集中体现

Claude Mythos可以看作上述所有能力提升的集中体现。随着Mythos在代码理解、推理与自主执行能力上的整体性跃升，该模型在漏洞修复与漏洞利用两个方向上均实现了同步、显著的效率提升，其实际能力已在真实漏洞场景中得到验证。它在OpenBSD中发现了潜伏27年的TCP网络堆栈整数溢出漏洞，在FFmpeg中找到了逃过数百万次自动化测试的16年历史漏洞，甚至能针对Firefox浏览器自主编写串联4个独立漏洞的完整利用链，突破浏览器渲染器和操作系统的双重沙箱。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

Mythos这一能力跃升在与前代模型的横向对比中尤为突出。数据上的对比更能说明问题。Mythos的scaffold（外围工程框架）和前代模型Opus 4.6使用的完全一样–就是一个隔离容器、一段提示词、加上代码浏览和执行的基础工具。但效果天差地别：在Firefox JS引擎的漏洞利用测试中，Opus 4.6在数百次尝试中只成功了2次，而Mythos在相同条件下成功了181次，另有29次达到了寄存器控制。事实上，Mythos已在几乎所有主流操作系统和主流浏览器中识别出数以千计的漏洞，其中超过99%尚未完成修复。

这些成果背后，前面提到的几个核心能力缺一不可。比如OpenBSD这个27年的漏洞，隐藏在TCP网络堆栈的深层调用链路中，触发条件分散在多个文件和模块之间，如果没有百万级Token的超长上下文，模型根本无法将这些分散的线索纳入同一个视野中进行关联推理。再比如FFmpeg那个16年的漏洞，代码行本身被自动化工具执行了超过五百万次却从未被标记异常，说明问题不在于路径是否被覆盖，而在于传统工具缺乏对代码语义的理解，无法判断这段代码在特定状态组合下的行为是否违背了预期。这恰恰是大模型的语义感知力和安全推理训练所解决的问题。

这些成果的共同特点是：传统的覆盖率引导Fuzzing和基于规则的静态分析在这些漏洞面前完全失效。OpenBSD以近乎偏执的安全工程标准著称，人类专家审计了27年也没有发现问题。这些漏洞之所以能被大模型发现，恰恰是因为它们需要的不是更多的路径覆盖或更复杂的规则，而是对代码语义的深层理解、跨文件的全局视野、以及对异常状态组合的系统推演–而这些正是大模型核心能力所带来的新维度。

现有公开的大模型已经具备相当的代码理解能力，能够识别漏洞的存在，但将漏洞转化为可用攻击程序的成功率极低。发现可疑漏洞并不是很困难，但真正的门槛在于验证，如何证明这确实是一个可以被利用的漏洞，才是阻碍发现的最后一步。现有模型在需要多步骤推理和反复迭代的复杂利用场景中，仍然依赖人工介入才能推进。Mythos的跃升体现在两个维度，一是推理深度，它能够将对漏洞的理解延伸为完整的多步骤攻击链，串联多个独立缺陷，设计出人类安全团队需要数天才能理解的利用方案；二是自主程度，从发现漏洞到构造攻击程序，Mythos能够全程独立完成，不再需要人类在关键节点介入引导。这两个维度的同步跃升，使Mythos从“辅助工具”变成了“自主攻击者”，完成从发现、验证到利用的自动化全流程。

总结来看，白盒场景下，驱动漏洞挖掘能力不断进化的根本因素是模型自身能力的提升，更大的知识压缩、更深的语义理解、更长的上下文、更强的安全推理，即对漏洞成因和利用路径的深层逻辑推演能力。过去需要复杂的多智能体框架去拆解和弥补的问题，现在一个足够强大的模型就能在一个窗口内完成从读代码到想思路到写脚本到验证的全流程。框架在简化，但效果在提升，因为底层的能力基座变了。

灰盒场景：跨越从机器码到语义的鸿沟

白盒场景的前提是有完整源代码可以直接阅读。但在现实中，大量的安全分析目标只有编译后的二进制文件–闭源商业软件、固件、恶意软件样本、甚至很多关键基础设施的核心组件，都拿不到源代码。这就是灰盒场景：你能拿到程序本身（可以反汇编、可以插桩运行），但看到的不是人类写的源代码，而是编译器产出的机器码或汇编指令。

灰盒和白盒表面上只差了一步，从源代码到二进制，但这一步带来的信息损失是灾难性的。编译过程会系统性地剥离掉几乎所有的高级语义信息：变量名变成了寄存器编号，函数名变成了内存地址，数据结构的逻辑含义消失在了一堆指针偏移运算中，连代码注释和类型信息也被彻底丢弃。对于安全研究员来说，这意味着面对的是一片"语义沙漠"–代码在机械层面上是完整的，但它在说什么、为什么这么做，全靠人去猜。

2.1 传统方法的困境

传统的灰盒分析主要依赖两类手段：逆向工程工具和覆盖率引导的灰盒Fuzzing。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

在逆向工程方面，IDA Pro、Ghidra等反编译器可以把机器码翻译回类C的伪代码。但这种翻译是纯机械的–它能恢复控制流结构（if/else、循环），但生成的变量全叫v1、v2、v3，函数全叫sub_401000。面对编译器的高级优化（指令重排、内联展开），输出的伪代码逻辑经常被严重扭曲。安全研究员要理解一个中等复杂度的二进制函数，往往需要结合汇编、伪代码、调试器输出反复交叉验证，耗时巨大。

在灰盒Fuzzing方面，AFL++、libFuzzer等工具通过运行时插桩监控覆盖率来引导变异。但当目标程序的输入格式高度结构化时（比如特定的二进制文件格式、网络协议报文），传统的随机位翻转和字典替换策略很容易破坏输入的基本结构，导致变异后的输入在程序最外层的格式解析阶段就被拒绝。大量的测试资源被浪费在根本无法深入程序内部逻辑的无效输入上，陷入所谓的"覆盖率平原"–投入再多算力，覆盖率也不再增长。

更复杂的是，灰盒目标的可分析程度本身差异极大。带有部分符号信息的二进制可以作为起点，但经过strip、混淆或加壳处理的目标，反编译器看到的是保护层代码而非真正的业务逻辑，必须先完成动态脱壳才能进入实质分析阶段，而这一步本身就可能耗费大量时间和经验。此外，对闭源二进制的运行时插桩本身也比源码级插桩粗糙，覆盖率信息的粒度有限，甚至可能因为插桩改变程序时序而影响某类漏洞的可复现性。

2.2 灰盒的本质：语义恢复后的白盒问题

要理解大模型在灰盒场景中的核心贡献，需要先看清一个关键事实：灰盒分析的本质流程是"先恢复语义，再做安全推理"–而这两步都依赖模型自身的能力。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

第一步是语义恢复。编译剥离掉的变量名、函数含义、数据结构、业务逻辑，大模型有能力在很大程度上“猜回来”。它见过海量的“源代码-汇编代码”配对，学到了从低级指令模式反推高级语义意图的泛化能力。以LLM4Decompile为代表的专用反编译模型，在大规模C语言源码与对应汇编代码上进行预训练后，重新可编译率达到87%，语义保留能力相比通用大模型GPT-4提升了50%。在更高级的语义恢复任务上，ReSym框架能恢复变量名和复杂结构体定义，SYMGEN在函数名恢复上准确率超过此前最优方法达400%以上。

第二步是安全推理。一旦语义被恢复，灰盒问题就在很大程度上被转化成了白盒问题–模型面对的不再是无意义的机器码，而是有语义标注的代码。此时，白盒场景中讨论的那些核心能力（语义理解、全局视野、安全推理）就直接发挥作用了：模型可以理解函数的业务意图，追踪跨函数的数据流，识别违反安全不变量的边缘状态，甚至模拟特定输入在恢复后的代码中将产生的执行路径。

所以灰盒的情况和白盒在根本逻辑上是一致的：驱动能力提升的核心因素同样是模型自身的能力，即模型越强，语义恢复越准确，后续的安全推理也越深。这和黑盒场景形成了鲜明对比。黑盒完全没有可以分析的静态代码，必须依赖外部的系统设计来创造结构化的语义任务。而灰盒虽然代码被编译过了，但二进制本身就是一个可以直接分析的完整制品，大模型只要足够强大，就能从中提取出足够的语义信息来支撑安全分析。

2.3 大模型增强的灰盒Fuzzing

除了逆向工程，大模型在灰盒Fuzzing中的应用也遵循同样的逻辑：模型对代码结构和协议语义的理解能力越强，Fuzzing的效果就越好。

以LLAMAFUZZ为例，它把微调后的大模型植入Fuzzing的变异流程。模型在海量输入语料上学习后，掌握了数据结构的先验知识，能够在保持文件格式合法的前提下精确地在敏感字段实施深度变异。实际评估中，LLAMAFUZZ相比AFL++等工具平均提升了27%的分支覆盖率，在某些高难度目标上提升幅度甚至超过78%。

在网络协议Fuzzing方面，ChatAFL利用大模型对协议语义的理解，从少量数据包中提取协议语法结构，并在覆盖率停滞时让模型预测最可能触发新状态的消息，比传统工具多覆盖了近50%的深层状态转换。在定向Fuzzing方面，Staczzer让大模型预测最可能触发目标漏洞的函数调用栈，用预测结果替代传统的静态距离度量来调度种子，触发深层漏洞的速度是传统方法的2到3倍。

这些Fuzzing增强工作的共同特征是：大模型贡献的是对代码结构和执行逻辑的语义理解。传统Fuzzing的瓶颈在于变异的盲目性，而大模型正是通过理解“什么样的输入更可能触发深层逻辑”来打破这个瓶颈。模型对代码和协议的理解越深，给Fuzzing带来的增益就越大。

2.4 Mythos在灰盒领域的实践验证

Claude Mythos在灰盒领域的实践为上述论点提供了强有力的佐证。

Mythos做逆向工程的流程非常直接：面对一个闭源的二进制文件，它先将其反编译为尽可能接近源代码的表示，然后同时持有反编译代码和原始二进制，用和白盒完全一样的方法去查找漏洞–读代码、提出假设、写测试脚本、在沙箱中验证。Anthropic团队特别指出：“我们没有专门训练Mythos具备这些能力。它们是代码理解、推理和自主性全面提升的下游结果。”换句话说，灰盒能力的飞跃不是因为专门的灰盒训练或灰盒工程框架，而是因为模型的通用代码理解能力变强了。这类目标此前对传统逆向工程工具而言极为耗时，人工分析一个中等复杂度的闭源模块往往需要数天甚至数周，而Mythos能够在无人介入的情况下完成从反编译到漏洞验证的全流程，将这一周期压缩到数小时。

在具体的灰盒成果上，Mythos通过逆向分析闭源软件发现了远程拒绝服务漏洞、手机固件漏洞、桌面操作系统的本地提权利用链等。这些成果的共同特点是：模型需要先"看懂"反编译出的代码（语义恢复），然后在恢复出的语义基础上进行跨模块的漏洞推理（安全分析）。两个步骤的质量都直接取决于模型自身的代码理解和推理能力。

2.5 当前的能力边界

不过，灰盒场景也清楚地暴露了大模型目前的能力边界。越往底层走，模型基于概率统计的本质和机器码绝对精确要求之间的矛盾就越突出。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

这一局限在面对混淆或加密的二进制时体现得尤为直接。当目标经过代码混淆或加密保护后，反编译器输出的代码在语义层面已严重失真，Mythos等模型所依赖的"语义恢复"前提不复存在，分析能力因此大幅下降甚至完全失效。这也说明灰盒能力的天花板，在相当程度上取决于反编译/反混淆工具链的质量，而非仅仅是模型自身的推理水平。

Meta的LLM Compiler项目做了一个说明性的实验：让模型从汇编代码逆向生成LLVM中间表示（IR），再由编译器重新编译回汇编，经过专门微调的13B模型达到了45%的成功重构率，但完全精确匹配只有14%。在底层代码的世界里，“差不多对”和“完全对”之间的差距是致命的，一个寄存器赋值的遗漏就意味着段错误或权限逃逸。这也说明了当前最有效的做法不是让模型包揽一切，而是“模型负责语义理解，确定性工具负责精确执行”的协作模式。实践中这意味着：模型负责识别可疑的代码区域、提出漏洞假设、生成测试输入，而符号执行引擎或调试器负责对假设进行精确验证，模型的概率性输出在确定性工具的验证下才能转化为可信的安全结论。

独立机构METR的RE-Bench基准测试也揭示了有趣的规律。在限时2小时的短周期任务中，前沿AI代理的得分达到了人类专家的4倍，这说明AI在代码阅读速度和并行试错能力上有碾压性优势。但当时间扩展到8小时甚至32小时的深度任务时，人类专家反超了AI。这说明当前模型在长周期的战略规划和从根本性失败中恢复方面仍有短板，而这些正是模型能力未来需要继续提升的方向。

总结来看，灰盒场景下的核心逻辑是清晰的。灰盒分析的本质流程是语义恢复加安全推理，两个环节都直接取决于模型能力。模型越强，从二进制中恢复的语义越完整，对恢复出的代码的安全推理越深入。因此，和白盒场景一样，灰盒的根本驱动力是模型自身能力的提升。当前的局限（底层精确推理不足、长周期任务中的战略规划能力）同样指向需要模型能力的进一步突破，而非外围框架的优化。

黑盒场景：模型能力之外，系统设计同样关键

白盒有源代码，灰盒有二进制文件，而黑盒则完全看不到程序内部。黑盒渗透测试的情境下，你只能像真实攻击者一样，通过网络探测、前端交互等外部手段去摸索目标系统的弱点。没有可以直接分析的代码或二进制制品，大模型在这个场景下发挥作用的方式，和前面两个场景有着根本性的不同。

3.1 传统黑盒方法的困境

传统的黑盒安全测试高度依赖人类专家的经验和直觉。一次完整的安全评估通常需要串联多种自动化工具，分别完成环境侦察、薄弱点探查与最终的漏洞利用。

然而，这些工具本质上都是“执行器”而非“决策者”。它们能够高效地完成特定的数据收集或载荷投递，但无法自主决定“下一步该做什么”。例如，面对收集到的网络拓扑、系统版本和开放端口等碎片化信息，如何动态调整提权或横向移动的策略？当某条攻击路径受阻时，如何灵活切换思路？这些高度非标准化的决策以往全靠安全专家来完成。这种模式不仅成本高昂，更导致测试的深度和广度极度受限于个人的知识储备。

传统黑盒方法的核心瓶颈正是在于：缺乏将分散的信息串联成有效攻击链路的系统级智能。这正是大模型发挥核心价值的所在。大模型无需关注底层具体信息是如何采集的，而是将全部能力聚焦于“认知与决策”。面对复杂的环境上下文，大模型能够凭借其庞大的安全知识库进行逻辑推理，自主推演攻击链路，动态调整探测策略，真正实现了从“被动执行”到“智能主导”的跨越。

总的来说，传统黑盒方法的核心瓶颈是：把分散的工具能力串联成有效攻击链路的智能，完全依赖人类专家。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

3.2 大模型介入后的演进过程

大模型在黑盒渗透测试中的角色同样经历了明显的阶段演进，但和白盒不同的是，这里的演进方向不是框架在简化，恰恰相反–框架在变得更加精巧和复杂。

早期的单智能体阶段（2023-2024年），这一时期的典型尝试是让大模型直接扮演"AI黑客"。PentestGPT（USENIX Security 2024 杰出人工制品奖）设计了一棵"渗透测试任务树"维护攻击状态，通过推理、生成、解析三个模块协作引导模型完成从侦察到利用的闭环，子任务完成率相比基线提升了 228.6%。但局限随即暴露：攻击链一旦变长、环境变复杂，模型便易陷入冗余命令循环或在关键决策点卡住。同期的 AutoAttacker 在复杂网络环境中也频繁出现执行停滞与无效重复，印证了同样的问题。

多智能体协作阶段（2024-2025年），和白盒领域一样，人们开始用角色分离来降低单个模型的认知负荷。VulnBot把渗透流程拆给侦察、扫描、利用三个专精角色，用有向无环图管理任务依赖，在AutoPenBench基准上达到30.3%的端到端成功率。更有意思的是CurriculumPT，它把“课程学习”的理念引入了渗透测试，让Agent先从简单的漏洞练起，把积累的攻击经验存入知识库，再逐步挑战更复杂的目标。这种“由易到难”的训练策略使其漏洞利用成功率达到60%，比当时最强的基线高出18个百分点。

混合架构阶段（2025年末至今），研究者逐渐意识到，大模型本质上是概率性的Token预测器，独自承担长周期战略规划并不可靠，于是“神经-符号”混合架构的趋势随之出现。CHECKMATE框架将大模型从“主脑”降级为“感知器”和“单步执行器”，长周期战略规划交由确定性算法负责——模型解析Nmap输出、理解服务类型、生成单步指令，而"攻击哪个服务、走哪条路径"则由经典规划算法决策。这一分工使渗透成功率比纯LLM基线提升超过20%，同时成本降低53%、执行时间缩短54%。2026年的PentestGPTv2更进一步，引入证据引导的攻击树搜索与任务难度评估机制，能从证据置信度、历史成功率等维度实时判断路径可行性、果断放弃死胡同。在HackTheBox第8赛季实时盲测中，PentestGPT v2攻克了13台全新靶机中的10台，在全球8036名活跃参赛者中跻身前100。

3.3 黑盒与白盒、灰盒的根本差异

回顾上面的演进，可以发现黑盒场景和白盒、灰盒有一个根本性的区别。在白盒和灰盒场景下，模型面前都有一个可以直接分析的静态制品–源代码或二进制文件。模型越强，分析就越深，所以演进方向是框架不断简化、模型能力驱动一切。但在黑盒场景下，模型面前根本没有可以一次性“吞下”的静态全貌，一切信息都必须通过动态交互一步步探索获得。这个根本差异带来了几个独特的挑战：

◾️攻击面的“冷启动”问题：如果某个高价值的后台API没有被任何前端页面引用，也不在常规的目录字典里，大模型很难凭空推理出它的存在。

◾️长周期任务中的“迷路”问题：例如，一次深入的内网渗透可能需要数十个步骤的序列，模型在经历十几轮复杂交互后极易丢失前期的关键信息、混淆不同阶段的状态。

实证数据清楚地印证了这一点。AutoPenBench基准测试表明，完全自主模式下最强Agent框架的端到端成功率仅有21%，切换为人机协作模式后飙升至 64%。CVE-Genie的消融实验更具说服力：移除批评代理与反馈闭环后，仅依靠 o3 直接生成漏洞利用，成功率从51%归零，同时产生47%的错误复现噪声。这一规律在整个演进轨迹中同样清晰可见：白盒领域框架越来越简洁，黑盒领域却反其道而行——从PentestGPT的单Agent，到VulnBot的多Agent，再到CHECKMATE将模型降级为感知器、让经典算法接管战略规划，框架持续变得更加精巧。根本原因在于黑盒环境的动态性与不确定性，使得如何组织和引导模型能力，成为了与模型能力本身同等重要的变量。

大模型驱动的漏洞挖掘：能力机制、场景分析与演进路径

三个场景的对比与总结

回到最初的问题：为什么大模型能做漏洞挖掘？从三个场景的分析中，可以看到一条清晰的线索。

三个场景按可用信息量递减排列，大模型介入的方式也随之改变。在白盒场景下，模型面对的是完整的、人类可读的源代码，它的核心任务是在已有语义的基础上做深层安全推理，即追踪跨文件数据流、推演异常状态组合、发现深层逻辑缺陷。这里的进化方向很直接：模型越强、上下文越长、安全推理越深，效果就越好。框架在简化，模型能力在驱动一切。

在灰盒场景下，模型面对的是被编译剥离了语义的机器码。这里的核心挑战变成了语义恢复，从汇编指令反推出代码的功能意图、变量含义和结构信息。大模型在这个环节展现了传统工具无法企及的能力，但在需要绝对精确的底层推理时仍有局限，目前最有效的模式是“模型负责语义、工具负责精确”的协作。和白盒类似，灰盒能力的根本驱动力同样是模型自身–同样的框架、不同的模型，效果天差地别。

在黑盒场景下，模型完全看不到程序内部，只能通过外部交互探索。这里的情况和前两个场景明显不同：模型能力依然重要，但不再是唯一的决定性因素，系统架构的设计同样关键。黑盒领域的框架不是在变简洁，而是在变得更加精巧，从单Agent到多Agent到神经-符号混合架构，每一步演进都在探索如何更好地组织和引导模型的能力。

值得注意的是，即使是在漏洞挖掘领域表现最突出的Mythos，其覆盖的范围也主要集中在白盒和灰盒场景。Mythos确实发现了大量Web应用漏洞–包括多个完整的认证绕过、账号登录绕过、以及可远程删除数据或使服务崩溃的拒绝服务攻击。但Anthropic团队在技术报告中指出，这些Web漏洞的发现方式和内存安全漏洞本质上是一样的，都是通过阅读和分析目标应用的源代码来完成的。换句话说，Mythos发现Web漏洞走的仍然是白盒路径，而非黑盒路径。纯粹的黑盒交互式安全测试–面对一个只能通过浏览器或网络接口访问的目标，在完全看不到内部实现的情况下发现漏洞–目前仍是大模型尚未充分覆盖的方向。

虽然三个场景的侧重点不同，但它们共同指向一个核心事实：大模型为安全领域带来的最根本变革，是将“语义理解”这一维度引入了原本由规则匹配和符号计算主导的领域。

总结

Mythos的出现确实给传统网络安全环境带来了新的挑战，但我们更需要理性看待。Mythos目前披露的漏洞在部分小模型上同样能够得到检测，白盒场景部署沙箱、灰盒场景引入代码混淆，均能有效收窄其攻击面；在黑盒场景下，Mythos目前也尚未展现出有效的端到端利用能力。此外，Anthropic至今未公布Mythos的误报率数据，其实际检出质量仍缺乏独立可验证的基准。因此，我们在保持警惕的同时也应对防御侧保持信心，将注意力集中在针对性加固薄弱环节上，比将其渲染为无解的系统性威胁更为务实。

声明：本文来自赛博新经济，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。