与 Mozilla 合作提升 Firefox 安全性：Claude 发现 22 个漏洞

March 06, 2026

本文翻译自 Partnering with Mozilla to improve Firefox’s security，原载于 Hacker News。

AI 模型现在已经能够独立识别复杂软件中的高危漏洞。正如 Anthropic 最近记录的那样，Claude 在经过充分测试的开源软件中发现了超过 500 个零日漏洞——这些是软件开发者尚未知晓的安全缺陷。

本文将分享 Anthropic 与 Mozilla 研究人员的合作细节：在这场合作中，Claude Opus 4.6 在两周内发现了 22 个漏洞。其中，Mozilla 将 14 个定级为高危漏洞——这几乎占 2025 年修复的所有 Firefox 高危漏洞的五分之一。换句话说：AI 正在使以高度加速的速度检测严重安全漏洞成为可能。

Firefox 安全漏洞报告趋势图

Firefox 各来源安全漏洞月度报告。Claude Opus 4.6 在 2026 年 2 月发现了 22 个漏洞，超过了 2025 年任何单月的报告数量。

作为这次合作的一部分，Mozilla 处理了我们提交的大量报告，帮助我们理解哪些发现值得提交 bug 报告，并在 Firefox 148.0 中向数亿用户推送了修复补丁。他们的合作，以及我们学到的技术经验，为 AI 安全研究人员和维护者如何共同应对这一时刻提供了范例。

从模型评估到安全合作

2025 年底，Anthropic 注意到 Opus 4.5 已经接近解决 CyberGym 中的所有任务——这是一个测试 LLM 能否复现已知安全漏洞的基准测试。团队希望构建一个更难、更真实的评估，包含更多技术复杂漏洞，比如现代 Web 浏览器中存在的那种。于是，他们构建了一个 Firefox 历史 CVE（通用漏洞披露）数据集，看看 Claude 能否复现这些漏洞。

选择 Firefox 是因为它既是一个复杂的代码库，又是世界上最经过充分测试和安全的开源项目之一。这使得它比之前用来测试模型的其他开源软件更能检验 AI 发现新型安全漏洞的能力。数亿用户每天都依赖它，而浏览器漏洞尤其危险，因为用户经常遇到不可信的内容，需要依赖浏览器来保护他们的安全。

第一步是使用 Claude 在 Firefox 旧版本代码库中寻找已识别的 CVE。令人惊讶的是，Opus 4.6 能够复现很高比例的历史 CVE——要知道，这些 CVE 每一个都需要大量人工努力才能发现。但这个结果的可信度仍然存疑，因为至少其中一些历史 CVE 可能已经在 Claude 的训练数据中了。

于是，团队让 Claude 在 Firefox 的当前版本中寻找新型漏洞——根据定义，这些漏洞不可能之前被报告过。他们首先聚焦于 Firefox 的 JavaScript 引擎，然后扩展到浏览器的其他部分。JavaScript 引擎是一个便捷的起点：它是 Firefox 代码库的一个独立部分，可以单独分析；而且鉴于其广泛的攻击面（它在用户浏览网页时处理不可信的外部代码），保护它尤其重要。

仅仅 20 分钟的探索后，Claude Opus 4.6 就报告在 JavaScript 引擎中发现了一个 Use After Free（一种内存漏洞，可能允许攻击者用任意恶意内容覆盖数据）。Anthropic 的一位研究者在独立虚拟机上用最新的 Firefox 版本验证了这个 bug，然后转发给另外两位研究者，他们也验证了这个 bug。随后，团队在 Bugzilla（Mozilla 的 issue tracker）上提交了 bug 报告，附上漏洞描述和 Claude 编写的建议补丁（经报告团队验证），以帮助确定根本原因。

在验证并提交第一个漏洞给 Firefox 的时间里，Claude 已经发现了 50 个更多的独特崩溃输入。在分类这些崩溃时，Mozilla 的一位研究者联系了团队。经过关于各自流程的技术讨论，并分享了几个手动验证的漏洞后，他们鼓励团队批量提交所有发现，无需逐一验证，即使团队并不确定所有崩溃测试用例都有安全隐患。到这次努力结束时，团队扫描了近 6,000 个 C++ 文件，总共提交了 112 份独特的报告，包括上述的高危和中危漏洞。大多数问题已在 Firefox 148 中修复，其余将在即将发布的版本中修复。

在进行外部软件的漏洞搜索时，Anthropic 始终意识到可能遗漏了关于代码库的关键信息，这可能导致发现是误报。团队尽力进行验证 bug 的尽职调查，但总有出错的空间。非常感谢 Mozilla 对其分类流程如此透明，并帮助调整方法以确保只提交他们关心的测试用例（即使并非所有都与安全相关）。Mozilla 研究人员此后已开始在内部实验使用 Claude 进行安全目的。

从识别漏洞到编写原始漏洞利用程序

为了衡量 Claude 网络安全能力的上限，团队还开发了一个新的评估，以确定 Claude 是否能够利用发现的任何漏洞。换句话说，他们想了解 Claude 是否也能开发黑客用来利用这些漏洞执行恶意代码的工具。

为此，团队给 Claude 访问提交给 Mozilla 的漏洞的权限，并要求 Claude 针对每个漏洞创建一个利用程序。为了证明成功利用了漏洞，团队要求 Claude 演示一次真正的攻击。具体来说，要求它读取和写入目标系统中的本地文件，就像攻击者会做的那样。

团队使用不同的起点运行了这个测试数百次，花费了大约 4,000 美元的 API 信用。尽管如此，Opus 4.6 只在 两种情况下成功地将漏洞转化为利用程序。这告诉我们两件事：

Claude 发现漏洞的能力远强于利用漏洞的能力
识别漏洞的成本比创建利用程序低一个数量级

然而，Claude 能够自动开发出原始的浏览器利用程序（即使只在少数情况下）这一事实是令人担忧的。

“原始”是一个重要的限定词。Claude 编写的利用程序只在测试环境中有效，该环境有意移除了现代浏览器中的一些安全功能。这包括最重要的沙箱，其目的是减少这些类型漏洞的影响。因此，Firefox 的”纵深防御”本可以有效缓解这些特定的利用程序。但逃离沙箱的漏洞并非 unheard of，而 Claude 的攻击是端到端利用程序的必要组成部分之一。

AI 驱动的网络安全下一步

这些 AI 驱动漏洞开发的早期迹象强调了为防御者加速发现-修复过程的重要性。为此，Anthropic 希望分享在执行此分析时发现的几个技术和流程最佳实践。

补丁代理和任务验证器

在研究使用 LLM 开发和验证 bug 修复的”补丁代理”（patching agents）时，团队开发了一些方法，希望能帮助维护者使用 Claude 等 LLM 更快地分类和处理安全报告。

根据经验，Claude 在能够用另一个工具检查自己的工作时表现最好。团队将这类工具称为”任务验证器”（task verifier）：一种确认 AI 代理的输出是否真正达到目标的可信方法。任务验证器给代理实时反馈，使其在探索代码库时能够深度迭代，直到成功。

任务验证器帮助团队发现了上述 Firefox 漏洞，在单独的研究中，团队发现它们对于修复 bug 也很有用。一个好的补丁代理至少需要验证两件事：

漏洞是否真正被移除
程序的预期功能是否被保留

在团队的工作中，构建了自动测试原始 bug 在建议修复后是否仍可触发的工具，并单独运行测试套件来捕获回归（意外破坏其他东西的更改）。团队期望维护者最了解如何为自己的代码库构建这些验证器；关键点是，给代理一种可靠的方式来检查这两个属性，可以显著提高其输出质量。

团队不能保证所有通过这些测试的代理生成补丁都足够好可以立即合并。但任务验证器增加了对生成的补丁将修复特定漏洞同时保留程序功能的信心——从而达到被认为是一个合理补丁的最低要求。当然，在审查 AI 编写的补丁时，团队建议维护者应用与任何外部作者创建的补丁相同的审查标准。

提交报告的最佳实践

从提交 bug 和补丁的流程角度来看，团队知道维护者已经忙不过来了。因此，方法是为维护者提供他们需要的信息来信任和验证报告。Firefox 团队强调了团队提交内容中三个关键组成部分：

附带的极简测试用例
详细的概念验证
候选补丁

团队强烈鼓励使用 LLM 驱动的漏洞研究工具的研究人员，在基于此类工具的输出提交报告时，包含类似的验证和可复现性证据。

团队还发布了协调漏洞披露运营原则，描述了与维护者合作时将使用的程序。目前，这些流程遵循标准行业规范，但随着模型能力的提升，可能需要调整流程以跟上能力的步伐。

时刻的紧迫性

前沿语言模型现在已经是世界级的漏洞研究人员。除了在 Firefox 中识别的 22 个 CVE，团队还使用 Claude Opus 4.6 发现了其他重要软件项目（如 Linux 内核）中的漏洞。在接下来的几周和几个月里，将继续报告如何使用模型并与开源社区合作提高安全性。

Opus 4.6 目前在识别和修复漏洞方面远比利用它们更擅长。这给了防御者优势。随着 Claude Code Security 的有限研究预览版发布，团队正在将漏洞发现（和补丁）能力直接带给客户和开源维护者。

但看看进步的速度，前沿模型的漏洞发现和利用能力之间的差距不太可能持续很长时间。如果将来语言模型突破这个利用障碍，将需要考虑额外的保障措施或其他行动，以防止模型被恶意行为者滥用。

团队敦促开发者利用这个窗口期加倍努力使软件更安全。 就 Anthropic 而言，计划大幅扩展网络安全工作，包括与开发者合作搜索漏洞（遵循上述 CVD 流程）、开发帮助维护者分类 bug 报告的工具，以及直接提议补丁。

关键要点

AI 漏洞检测能力惊人：Claude Opus 4.6 在两周内发现了 Firefox 中的 22 个漏洞，其中 14 个为高危，占 2025 年 Firefox 高危漏洞的近 20%
发现远比利用容易：花费 4,000 美元 API 信用运行数百次测试，Claude 仅在 2 种情况下成功创建利用程序，但发现漏洞的效率高得多
任务验证器是关键：给 AI 代理实时反馈的工具（如自动测试漏洞是否仍存在、运行回归测试）能显著提高补丁质量
高质量报告三要素：提交漏洞报告时应包含极简测试用例、详细概念验证、候选补丁
窗口期紧迫：虽然目前 AI 更擅长发现而非利用漏洞，但这个差距不会永远存在，开发者应尽快提升软件安全性
协作模式可复制：Anthropic 与 Mozilla 的合作（批量提交、透明分类流程、快速修复）为 AI 安全研究人员和维护者提供了范例