AI权威清洗:一张“魔改”图如何让GPT-5.4、Claude Opus 4.6集体“造谣”?

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在信息爆炸的时代,我们越来越依赖人工智能(AI)来帮助我们辨别真伪、获取知识。无论是社交媒体上的耸人听闻的图片,还是电商平台上的商品对比,抑或是新闻报道的真实性,AI,特别是能够理解图像的视觉语言模型(VLM),正悄然成为我们信息生态中的“事实仲裁者”。然而,一项来自苏黎世联邦理工学院(ETH Zürich)的研究揭示了一个令人不安的现象:一张人眼几乎无法察觉的图片,就足以让当前最先进的AI模型——如GPT-5.4、Claude Opus 4.6等——集体“造谣”,并以极高的自信度输出错误信息。这项研究将这种现象称为“AI权威清洗”(AI Authority Laundering)。

AI的“权威光环”:从助手到事实仲裁者

近年来,VLM的应用场景呈爆炸式增长。它们不再仅仅是“会看图的聊天机器人”,而是深入到我们日常生活的方方面面。用户习惯性地将图片信息输入AI,期望获得“客观”的分析和验证。例如,在X(原Twitter)上用Grok鉴定图片真伪,在小红书上让豆包或Kimi评估产品,甚至在购物时让ChatGPT对比商品。这种对AI的信任,源于它们通常能提供逻辑清晰、信息详实的回答,似乎代表了一种超越人类偏见的“权威”。
然而,正是这种日益增长的“默认权威”,为一种新型攻击提供了温床。Florian Tramèr教授团队在论文《Laundering AI Authority with Adversarial Examples》中,系统性地证明了攻击者如何利用这种信任,通过人眼难以察觉的微小扰动,来操纵AI的判断,使其自信地输出错误信息。

对抗样本的“进化”:从学术趣闻到现实威胁

“对抗样本”(Adversarial Examples)并非新概念,早在十多年前,研究者就已演示过如何通过微小的像素扰动,让AI将熊猫误识别为长臂猿。但过去,这类攻击被视为“学术上有趣、工程上无关紧要”的问题,因为在实际应用中,模型将熊猫误识别为长臂猿的影响微乎其微。
然而,当VLM成为信息核查、内容审核、电商导购等高信任度场景的核心工具时,情况发生了根本性变化。这项研究的关键在于,它为“对抗样本”这个老概念补上了“So What?”的答案:在VLM广泛应用的今天,对抗样本攻击已不再是实验室里的概念验证,而是一种低成本、可大规模实施的现实威胁。攻击者不再是为了让AI犯错而犯错,而是为了“清洗”和“放大”他们的不实信息,利用AI的“权威”背书,使其看起来合情合理。

AI“造谣”的N种场景:从虚假信息到名誉攻击

研究团队通过多种场景演示了“AI权威清洗”的威力,以下是其中几个令人警醒的案例:

1. 放大虚假信息:为阴谋论“盖章定调”

攻击者可以轻易地操纵包含历史事件(如登月、911、肯尼迪遇刺等)的图片,使其在VLM眼中“变质”。当用户向ChatGPT、Claude等模型询问这些事件的真实性时,模型可能会自信地判断相关图片是伪造的,或者提供与事实相悖的解读,从而为阴谋论或虚假叙事提供“AI官方认证”。

2. 抹黑特定个人:AI沦为名誉攻击工具

研究人员展示了如何通过图片扰动,让Grok等模型将Elon Musk与贩毒被捕或死亡新闻联系起来。即使新闻报道中明确提及了真实姓名,AI也可能将图片中的人物错误地识别为Musk。更甚者,当被要求生成“让更有罪的人被逮捕的画面”时,AI可能会生成Musk被警察逮捕的图像,即便原始素材与此无关。这种攻击方式,能够轻易地将负面信息强加于公众人物,损害其声誉。

3. 绕过内容审核:成人内容与“性别伪装”

在内容审核领域,对抗样本同样显示出强大的破坏力。研究者通过扰动,成功让原本被判定为色情的图片,在AI眼中变得“适合社交媒体发布”,甚至被评价为“互动潜力高”。
一个更精细的案例涉及绕过对女性图像的裸露过滤。通过将女性图像的嵌入向量(embedding)扰动至男性图像的特征空间,AI模型(如Grok)在评估时更容易通过“脱衣”请求,尽管展示的仍然是原始的女性图像。这揭示了AI审核系统在面对精心设计的对抗性输入时,可能出现的严重漏洞。

4. 最离奇的一幕:AI性别识别的“集体失忆”

最令人匪夷所思的实验之一是:研究者将一张AI生成的女性图片及其扰动版本(被拉向一张AI生成男性图片的embedding)并排放置,询问Claude Opus 4.6“这是同一个人吗?”。令人震惊的是,Claude坚定地回答“不是,左边是男性,右边是女性,这是两个不同的人”。更令人不安的是,Grok 4.2和ChatGPT 5.4 Thinking也给出了完全一致的、错误的性别判断。这显示了即使是最先进的模型,也可能在细微的视觉扰动下,产生离谱的、基于错误信息的判断。

结论:AI安全挑战的“老方新药”与未来展望

这项研究最令人深思的结论是:实现上述所有威胁,并不需要任何新的攻击算法。研究者使用的,是2014年就已存在的经典PGD对抗样本方法,结合对公开CLIP模型的迁移攻击。这些技术早已是公开文献中的“老配方”。这意味着,当前研究报告的成功率,可能仅仅是攻击者能力的“下限”。
在过去几年里,机器学习社区对视觉对抗鲁棒性的研究兴趣有所降温,但这项研究有力地证明了其持续的、甚至日益增长的重要性。当VLM被深度集成到社会运转的各个环节,成为信息流动的关键节点时,对抗样本就从一个学术上的“小插曲”,演变成了一种能够被部署、可大规模实施的真实世界攻击。
面对“AI权威清洗”的挑战,整个AI社区需要重新审视和加强模型在对抗性输入下的鲁棒性。这不仅关乎AI技术的可靠性,更直接影响到我们未来获取和信任信息的安全。在AI不断渗透我们生活的今天,理解并防范这类“隐形”的攻击,比以往任何时候都更加迫切。持续关注AI资讯,了解AI技术的最新进展与潜在风险,对于普通用户和行业开发者都至关重要。
Loading...

没有找到文章