AI安全新纪元：GPT-5.5攻破300黑客任务

type

status

date

slug

summary

GPT-5.5：AI在网络安全领域的“核爆级”突破

近期，一份来自澳大利亚研究机构 Lyptus Research 的报告如同一颗重磅炸弹，在全球 AI 和网络安全领域激起了层层涟漪。报告指出，代号为 GPT-5.5 的模型在进攻性网络安全评测中表现出惊人的能力，不仅“彻底击穿”了 300 个极具挑战性的黑客评测任务，更以高达 92.4% 的正确率，让现有的评估体系几乎失效。这一成就不仅预示着 AI 在网络安全攻防领域的巨大潜力，也敲响了警钟：衡量 AI 能力的“尺子”正在迅速被超越。

颠覆性表现：316项任务中的292道被攻克

Lyptus Research 的评测覆盖了进攻性网络安全领域最困难的 7 个基准，包括漏洞利用、CTF（夺旗赛）挑战以及真实 CVE（通用漏洞披露）的复现。这些任务的难度被精心设计，旨在模拟现实世界中最棘手的网络威胁。然而，GPT-5.5 在其中成功解决了 292 道，这一数字远超预期，其准确率 92.4% 更是达到了顶尖人类黑客团队的水准。

更令人瞩目的是，研究团队表示，剩余的 24 道未解决任务已不足以绘制出具有统计学意义的能力曲线。这意味着，GPT-5.5 的能力已经超出了当前测试框架的测量极限。这套在 2025 年 12 月开始构建、旨在捕捉“最难”任务的评测体系，在短短数月内就从“最具挑战性”沦为了“不够用”。

能力指数级增长：每6个月翻一番的“恐怖”曲线

报告中最令人不安的发现，莫过于 AI 在进攻性网络安全领域呈现出的指数级增长态势。Lyptus Research 从 2024 年开始追踪的数据拟合显示，AI 的进攻性网络安全能力大约每 5 到 6 个月就会翻一番。

这种增长速度在模型处理能力上体现得淋漓尽致。例如，在仅 200 万 Token 预算下，GPT-5.5 在 CyberGym 基准测试上的正确率为 54.4%；而当 Token 预算增加到 5000 万时，其正确率飙升至 86.4%，提升了惊人的 32 个百分点。英国人工智能安全研究所（AIUK AI Safety Institute）的研究也证实了这一点，即使在 1 亿 Token 的预算下，模型能力仍在持续增长，并未出现平台期。这意味着，在实际应用中，由于计算资源和成本的限制，我们看到的模型能力可能只是冰山一角。

强大模型受控：安全厂商的“谨慎”与“门控”

面对如此强大的 AI 能力，领先的 AI 实验室和安全机构正采取前所未有的谨慎措施。Anthropic 在 4 月份发布的 Claude Mythos Preview 版本，因其过强的网络安全能力而选择不公开，转而通过 Project Glasswing 部署给关键基础设施的防御方。OpenAI 也为 GPT-5.5 的网络安全能力评级为“High”，并对相关攻击能力实施“Trusted Access for Cyber”的门控策略。

这些举措表明，当前行业普遍认识到，强大的 AI 安全能力是一把双刃剑。如何确保其不被滥用，已成为一个迫切需要解决的问题。然而，这种“控制”策略面临着严峻的挑战。Lyptus Research 提出的“适应缓冲期”指标显示，闭源前沿能力传导到开源模型的时间差正在迅速缩短，在进攻性网络安全领域约为 5.7 到 13.1 个月。按此速度，GPT-5.5 级别的攻击能力可能在一年内以开源形式广泛传播。

“尺子”被干碎：评估体系的结构性困境

GPT-5.5 的表现不仅是单一模型能力的飞跃，更暴露了当前 AI 能力评估体系的深层危机。当一个模型能够轻松“击穿”被认为是“最难”的评测任务时，意味着我们用来衡量其能力的“尺子”已经失效。

“时间地平线”等方法论依赖于设置比模型能力更难的任务来锚定其能力拐点。一旦模型能够完成所有任务，这种方法就失去了意义。而开发新的、更具挑战性的测试需要大量的时间和人力，这与 AI 能力每半年翻一番的爆炸式增长形成了鲜明对比。

更令人担忧的是，英国人工智能安全研究所的发现——即使有更难的题目，只要攻击方愿意投入更多算力（如增加 Token 预算），模型依然能“做穿”。这揭示了一个结构性困境：评估能力的发展远远落后于 AI 能力的增长。

展望未来：看不见的边界与更广泛的挑战

网络安全领域是最容易量化 AI 能力的硬指标领域之一，连这里的评估体系都已“失效”，那么那些更模糊、更难量化的能力维度（如创造力、复杂推理、情感理解等）又将如何衡量？如果 AI 能力以每 6 个月翻一番的速度持续增长，一年后的能力将是今天的 4 倍，两年后则是 16 倍。

GPT-5.5 的案例，仅仅是 AI 能力指数级增长在特定领域的一次“预演”。它提醒我们，通往通用人工智能（AGI）乃至超人工智能（ASI）的道路上，我们现有的衡量和控制机制，可能远比我们想象的要脆弱。看不见的边界，比边界本身更具危险性。

在 AI 飞速发展的今天，理解其能力边界、风险以及评估体系的局限性，比以往任何时候都更为重要。这不仅是技术专家的责任，也是全社会需要共同关注的议题。我们迫切需要开发出能够跟上 AI 发展步伐的评估工具和安全框架，以应对即将到来的、更加复杂和不确定的未来。

了解更多 AI 资讯，请访问：https://aigc.bar