AI权威清洗：一张“魔改”图如何让GPT-5.4、Claude Opus 4.6集体“造谣”？

type

status

date

slug

summary

AI的“权威光环”：从助手到事实仲裁者

近年来，VLM的应用场景呈爆炸式增长。它们不再仅仅是“会看图的聊天机器人”，而是深入到我们日常生活的方方面面。用户习惯性地将图片信息输入AI，期望获得“客观”的分析和验证。例如，在X（原Twitter）上用Grok鉴定图片真伪，在小红书上让豆包或Kimi评估产品，甚至在购物时让ChatGPT对比商品。这种对AI的信任，源于它们通常能提供逻辑清晰、信息详实的回答，似乎代表了一种超越人类偏见的“权威”。

然而，正是这种日益增长的“默认权威”，为一种新型攻击提供了温床。Florian Tramèr教授团队在论文《Laundering AI Authority with Adversarial Examples》中，系统性地证明了攻击者如何利用这种信任，通过人眼难以察觉的微小扰动，来操纵AI的判断，使其自信地输出错误信息。

对抗样本的“进化”：从学术趣闻到现实威胁

“对抗样本”（Adversarial Examples）并非新概念，早在十多年前，研究者就已演示过如何通过微小的像素扰动，让AI将熊猫误识别为长臂猿。但过去，这类攻击被视为“学术上有趣、工程上无关紧要”的问题，因为在实际应用中，模型将熊猫误识别为长臂猿的影响微乎其微。

然而，当VLM成为信息核查、内容审核、电商导购等高信任度场景的核心工具时，情况发生了根本性变化。这项研究的关键在于，它为“对抗样本”这个老概念补上了“So What？”的答案：在VLM广泛应用的今天，对抗样本攻击已不再是实验室里的概念验证，而是一种低成本、可大规模实施的现实威胁。攻击者不再是为了让AI犯错而犯错，而是为了“清洗”和“放大”他们的不实信息，利用AI的“权威”背书，使其看起来合情合理。

AI“造谣”的N种场景：从虚假信息到名誉攻击

研究团队通过多种场景演示了“AI权威清洗”的威力，以下是其中几个令人警醒的案例：

1. 放大虚假信息：为阴谋论“盖章定调”

攻击者可以轻易地操纵包含历史事件（如登月、911、肯尼迪遇刺等）的图片，使其在VLM眼中“变质”。当用户向ChatGPT、Claude等模型询问这些事件的真实性时，模型可能会自信地判断相关图片是伪造的，或者提供与事实相悖的解读，从而为阴谋论或虚假叙事提供“AI官方认证”。

2. 抹黑特定个人：AI沦为名誉攻击工具

研究人员展示了如何通过图片扰动，让Grok等模型将Elon Musk与贩毒被捕或死亡新闻联系起来。即使新闻报道中明确提及了真实姓名，AI也可能将图片中的人物错误地识别为Musk。更甚者，当被要求生成“让更有罪的人被逮捕的画面”时，AI可能会生成Musk被警察逮捕的图像，即便原始素材与此无关。这种攻击方式，能够轻易地将负面信息强加于公众人物，损害其声誉。

3. 绕过内容审核：成人内容与“性别伪装”

在内容审核领域，对抗样本同样显示出强大的破坏力。研究者通过扰动，成功让原本被判定为色情的图片，在AI眼中变得“适合社交媒体发布”，甚至被评价为“互动潜力高”。

一个更精细的案例涉及绕过对女性图像的裸露过滤。通过将女性图像的嵌入向量（embedding）扰动至男性图像的特征空间，AI模型（如Grok）在评估时更容易通过“脱衣”请求，尽管展示的仍然是原始的女性图像。这揭示了AI审核系统在面对精心设计的对抗性输入时，可能出现的严重漏洞。

4. 最离奇的一幕：AI性别识别的“集体失忆”

最令人匪夷所思的实验之一是：研究者将一张AI生成的女性图片及其扰动版本（被拉向一张AI生成男性图片的embedding）并排放置，询问Claude Opus 4.6“这是同一个人吗？”。令人震惊的是，Claude坚定地回答“不是，左边是男性，右边是女性，这是两个不同的人”。更令人不安的是，Grok 4.2和ChatGPT 5.4 Thinking也给出了完全一致的、错误的性别判断。这显示了即使是最先进的模型，也可能在细微的视觉扰动下，产生离谱的、基于错误信息的判断。

结论：AI安全挑战的“老方新药”与未来展望

这项研究最令人深思的结论是：实现上述所有威胁，并不需要任何新的攻击算法。研究者使用的，是2014年就已存在的经典PGD对抗样本方法，结合对公开CLIP模型的迁移攻击。这些技术早已是公开文献中的“老配方”。这意味着，当前研究报告的成功率，可能仅仅是攻击者能力的“下限”。

在过去几年里，机器学习社区对视觉对抗鲁棒性的研究兴趣有所降温，但这项研究有力地证明了其持续的、甚至日益增长的重要性。当VLM被深度集成到社会运转的各个环节，成为信息流动的关键节点时，对抗样本就从一个学术上的“小插曲”，演变成了一种能够被部署、可大规模实施的真实世界攻击。

面对“AI权威清洗”的挑战，整个AI社区需要重新审视和加强模型在对抗性输入下的鲁棒性。这不仅关乎AI技术的可靠性，更直接影响到我们未来获取和信任信息的安全。在AI不断渗透我们生活的今天，理解并防范这类“隐形”的攻击，比以往任何时候都更加迫切。持续关注AI资讯，了解AI技术的最新进展与潜在风险，对于普通用户和行业开发者都至关重要。