AI安全新纪元:GPT-5.5攻破300黑客任务

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

GPT-5.5:AI在网络安全领域的“核爆级”突破

近期,一份来自澳大利亚研究机构 Lyptus Research 的报告如同一颗重磅炸弹,在全球 AI 和网络安全领域激起了层层涟漪。报告指出,代号为 GPT-5.5 的模型在进攻性网络安全评测中表现出惊人的能力,不仅“彻底击穿”了 300 个极具挑战性的黑客评测任务,更以高达 92.4% 的正确率,让现有的评估体系几乎失效。这一成就不仅预示着 AI 在网络安全攻防领域的巨大潜力,也敲响了警钟:衡量 AI 能力的“尺子”正在迅速被超越。

颠覆性表现:316项任务中的292道被攻克

Lyptus Research 的评测覆盖了进攻性网络安全领域最困难的 7 个基准,包括漏洞利用、CTF(夺旗赛)挑战以及真实 CVE(通用漏洞披露)的复现。这些任务的难度被精心设计,旨在模拟现实世界中最棘手的网络威胁。然而,GPT-5.5 在其中成功解决了 292 道,这一数字远超预期,其准确率 92.4% 更是达到了顶尖人类黑客团队的水准。
更令人瞩目的是,研究团队表示,剩余的 24 道未解决任务已不足以绘制出具有统计学意义的能力曲线。这意味着,GPT-5.5 的能力已经超出了当前测试框架的测量极限。这套在 2025 年 12 月开始构建、旨在捕捉“最难”任务的评测体系,在短短数月内就从“最具挑战性”沦为了“不够用”。

能力指数级增长:每6个月翻一番的“恐怖”曲线

报告中最令人不安的发现,莫过于 AI 在进攻性网络安全领域呈现出的指数级增长态势。Lyptus Research 从 2024 年开始追踪的数据拟合显示,AI 的进攻性网络安全能力大约每 5 到 6 个月就会翻一番。
这种增长速度在模型处理能力上体现得淋漓尽致。例如,在仅 200 万 Token 预算下,GPT-5.5 在 CyberGym 基准测试上的正确率为 54.4%;而当 Token 预算增加到 5000 万时,其正确率飙升至 86.4%,提升了惊人的 32 个百分点。英国人工智能安全研究所(AIUK AI Safety Institute)的研究也证实了这一点,即使在 1 亿 Token 的预算下,模型能力仍在持续增长,并未出现平台期。这意味着,在实际应用中,由于计算资源和成本的限制,我们看到的模型能力可能只是冰山一角。

强大模型受控:安全厂商的“谨慎”与“门控”

面对如此强大的 AI 能力,领先的 AI 实验室和安全机构正采取前所未有的谨慎措施。Anthropic 在 4 月份发布的 Claude Mythos Preview 版本,因其过强的网络安全能力而选择不公开,转而通过 Project Glasswing 部署给关键基础设施的防御方。OpenAI 也为 GPT-5.5 的网络安全能力评级为“High”,并对相关攻击能力实施“Trusted Access for Cyber”的门控策略。
这些举措表明,当前行业普遍认识到,强大的 AI 安全能力是一把双刃剑。如何确保其不被滥用,已成为一个迫切需要解决的问题。然而,这种“控制”策略面临着严峻的挑战。Lyptus Research 提出的“适应缓冲期”指标显示,闭源前沿能力传导到开源模型的时间差正在迅速缩短,在进攻性网络安全领域约为 5.7 到 13.1 个月。按此速度,GPT-5.5 级别的攻击能力可能在一年内以开源形式广泛传播。

“尺子”被干碎:评估体系的结构性困境

GPT-5.5 的表现不仅是单一模型能力的飞跃,更暴露了当前 AI 能力评估体系的深层危机。当一个模型能够轻松“击穿”被认为是“最难”的评测任务时,意味着我们用来衡量其能力的“尺子”已经失效。
“时间地平线”等方法论依赖于设置比模型能力更难的任务来锚定其能力拐点。一旦模型能够完成所有任务,这种方法就失去了意义。而开发新的、更具挑战性的测试需要大量的时间和人力,这与 AI 能力每半年翻一番的爆炸式增长形成了鲜明对比。
更令人担忧的是,英国人工智能安全研究所的发现——即使有更难的题目,只要攻击方愿意投入更多算力(如增加 Token 预算),模型依然能“做穿”。这揭示了一个结构性困境:评估能力的发展远远落后于 AI 能力的增长。

展望未来:看不见的边界与更广泛的挑战

网络安全领域是最容易量化 AI 能力的硬指标领域之一,连这里的评估体系都已“失效”,那么那些更模糊、更难量化的能力维度(如创造力、复杂推理、情感理解等)又将如何衡量?如果 AI 能力以每 6 个月翻一番的速度持续增长,一年后的能力将是今天的 4 倍,两年后则是 16 倍。
GPT-5.5 的案例,仅仅是 AI 能力指数级增长在特定领域的一次“预演”。它提醒我们,通往通用人工智能(AGI)乃至超人工智能(ASI)的道路上,我们现有的衡量和控制机制,可能远比我们想象的要脆弱。看不见的边界,比边界本身更具危险性。
在 AI 飞速发展的今天,理解其能力边界、风险以及评估体系的局限性,比以往任何时候都更为重要。这不仅是技术专家的责任,也是全社会需要共同关注的议题。我们迫切需要开发出能够跟上 AI 发展步伐的评估工具和安全框架,以应对即将到来的、更加复杂和不确定的未来。
了解更多 AI 资讯,请访问:https://aigc.bar
Loading...

没有找到文章