Google放大招：文字、图片、视频、音频、PDF，全部...

type

status

date

slug

summary

category

icon

password

网址

导读

Google悄悄干了一件大事——Gemini Embedding 2正式进入GA阶段，成为Gemini API中第一个原生多模态embedding模型。它能把文本、图片、视频、音频、PDF文档全部映射进同一个统一向量空间，支持100多种语言。已有法律检索公司Harvey、记忆型数据库Supermemory、时尚电商Nuuly跑出实打实的指标提升。开发者社区炸了，但质疑声也同步跟上。

一条推文，撕开了AI检索的新底牌

5月1日，Google for Developers官方账号发了一条看起来不太起眼的推文：

「Gemini Embedding 2已经GA了，来看看它解锁了什么——从agentic多模态RAG到视觉搜索——它把文本、图片、视频、音频和文档映射进一个统一的embedding空间。」

▲ Google for Developers 官方推文宣布Gemini Embedding 2正式GA，9000+次浏览

乍一看像是又一次例行产品更新。但仔细读完官方文档、开发者博客、社区讨论之后，你会发现——这次Google打的牌，根本不在"聊天能力"这张桌上。

它瞄准的是更底层的东西：检索基础设施。

"通用翻译器"——Google自己的比喻，比任何技术名词都好懂

Google AI官方账号几乎同一时间发了一条解释帖，把embedding模型比作"通用翻译器"（universal translator）：

「把embedding模型想象成一种'通用翻译器'。它把文本、图片、视频和音频数据转化成一长串数字，就像一个独特的数字指纹。」

▲ Google AI 官方解释帖，近4万次浏览、656赞——一条科普帖能拿到这种数据，说明开发者确实在意这个方向

这个比喻精准地击中了核心：Gemini Embedding 2做的事情，就是给所有模态的数据发一张"统一身份证"。

文字有文字的指纹，图片有图片的指纹，视频有视频的指纹——但这些指纹全部在同一个坐标系里。这意味着你可以：

• 用一句话搜一段视频 • 拍一张图搜同款商品 • 拿PDF+图片+文本混在一起建索引 • 让AI agent在图文音视频里自己翻证据

以前要拆四五套管线才能勉强做到的事，现在一个API调用就搞定。

真正的变化：多模态从"模型能力"变成了"检索基建"

过去说"多模态"，大家想到的是什么？是大模型能看图、能听音频、能理解视频。但这些能力一直停留在"生成侧"——模型会回答问题，但你的检索系统依然是割裂的。

文本一套encoder，图片一套encoder，视频、音频再各有各的处理逻辑，最后靠额外对齐、重排、规则层硬拼起来。

Gemini Embedding 2这次最关键的一步，是把"理解能力"推到了召回层。

官方博客里有一句话特别值得细品：

「它不只是一次处理一种模态——它原生理解交错混合输入，你可以在一个请求里传入多种模态的输入（比如图片+文本）。」

▲ Gemini API Embeddings 官方文档页——代码示例、维度策略、多模态接入一应俱全

注意"interleaved input"这个词。它强调的重点在于：一个请求里就能理解混合输入，并压成一个统一向量。

这跟"模型能看图"完全是两码事。

硬核规格：8192 tokens、6张图、120秒视频、180秒音频

Google这次给出了非常详细的输入限制，说明这个能力已经在面向真实工程场景：

默认输出维度3072，但支持通过output_dimensionality参数截断到更小维度。官方推荐三档：768 / 1536 / 3072。

背后用的是Matryoshka Representation Learning（MRL）——大白话说就是"套娃学习"：大向量的前缀本身就是一个有效的小向量。你不用每次都上满血3072维，768维可能就够用了，存储和检索成本直接砍掉一大块。

这组数字的意义，远比模型本身更实际——它让工程团队第一次能算清楚：视频知识库能不能做？语音片段要不要直接塞进召回？PDF需不需要预切页？

▲ Google The Keyword 官方博客——由Google DeepMind的产品经理Min Choi和Distinguished Engineer Tom Duerig联合发布

三个案例，三个行业，全是真刀真枪的数字

Google这次没有只讲概念，开发者博客直接甩出了三个落地案例。

Harvey——法律检索：Recall@20精度提升3%

法律行业最怕的就是"召回看似对、引用实际错"。Harvey在法律场景benchmark上，换用Gemini Embedding 2后，Recall@20精度提升了3个百分点。别小看这3%——在法律场景，一个错误引用可能就是一场官司。

Supermemory——记忆型数据库：search Recall@1提升40%

Supermemory是做AI记忆和个人知识库的。集成后，search Recall@1直接提升了40%。这个数字太炸了——它意味着"你问一个问题，系统第一次返回的结果就是正确答案"的概率，提高了将近一半。

Nuuly——时尚电商视觉搜索：识别率从74%飙升到超过90%

这是最让普通人秒懂的案例。Nuuly做服饰租赁，需要把仓库里拍的衣服照片和商品目录匹配起来。用了Gemini Embedding 2之后，Match@20从60%提升到接近87%，整体识别率从74%飙到超过90%。

拍一张衣服照片，系统就能在库存里精准找到"它是谁"——这才是"统一向量空间"四个字的真实含义。

▲ Google Developers Blog——详细展示了agentic multimodal RAG、visual search等应用场景和工程规格

它在给谁铺路？两个关键词：Agentic Retrieval

seed tweet里专门用了agentic retrieval这个词。这几个字绝对经过反复斟酌。

因为AI agent要真正工作起来，光"会回答"远远不够。它需要：

• 自己找资料 • 跨文档比对 • 在图片、视频、PDF、语音里翻证据 • 把证据拼成可执行的决策

Gemini Embedding 2补的，就是agent的眼睛和记忆索引层。

以前agent只能在纯文本里翻找，现在它可以"看"图片、"听"音频、"读"PDF，然后在同一个语义空间里做cross-modal检索。

Google把embedding和Gemini Enterprise Agent Platform绑在一起推，意图已经很明显：它想让开发者用一套检索底座，撑起整个agentic工作流。

社区反应：兴奋和警惕同时拉满

开发者社区的反应很有意思——既兴奋又警觉。

Max Calkin直接说：没有Gemini Embedding 2，他的产品beacn.space根本做不出来。这是builder视角最直接的反馈——好不好用，看能不能立刻长出新功能。

▲ Max Calkin：没有Gemini Embedding 2，beacn.space就不可能实现

AI Security Gateway则从安全角度泼了一盆冷水：多模态embedding意味着图片、视频和音频现在都会通过你的embedding API。面部信息、文档、带有名字的音频——PII暴露面显著扩大，远超纯文本RAG的范围。

▲ AI Security Gateway：多模态embedding让PII暴露面显著扩大

Vanar则点出了另一个关键问题：这确实是跨模态统一表示的重要一步，但接下来真正要看的，是在现实世界的噪声和规模下，检索准确率到底站不站得住。

▲ Vanar：关键看真实世界噪声和规模下的检索准确性

Hacker News：有人说"colossal"，有人直接问开源替代

HN上的讨论更加直白。

用户jeanloolz说："This is colossal."因为几乎所有常见格式都能做embedding了。但他也补了一句——context window跟纯文本比还是偏小。

另一位用户Grimblewald立刻拿它跟Qwen的开源多模态embedding对比，质疑API-only模式下开发者根本没有控制权：

「Qwen开箱就能给出很好的embedding，还能自己控制方向……看不出这边的附加价值在哪。」

还有人第一反应就是问pricing——对很多工程团队来说，embedding永远看的不只是模型质量，还有能不能大规模索引、长期跑得起。

▲ Hacker News上的讨论——36个赞，5条评论，兴奋与质疑并存

别忽视的暗面：迁移成本和治理风险

统一向量空间听起来很美，但有两个现实问题不能回避：

第一，切换embedding模型意味着整库重建索引。

这对任何已经在跑向量检索的团队来说都是大工程。即使新模型效果更好，也不等于能"无痛替换"。shadow test、A/B测试、逐步迁移，一个都不能少。

第二，多模态进来后，数据治理的复杂度直接翻倍。

以前只处理文本，团队主要担心文本泄露。现在图像里的脸、音频里的名字、视频里的场景、PDF里的敏感版式，全部进入了同一条处理链。

合规团队如果还在用纯文本时代的审计逻辑，迟早要出事。

写在最后：检索底座的战争，才刚刚开始

这次Gemini Embedding 2的GA，表面上是一次产品更新，但更深层的信号是：Google正在把多模态从"演示能力"推向"开发者基础设施"。

以前多模态是demo里的亮点，现在它开始变成检索栈里的默认层。

当图、文、音、视频、PDF终于能在同一个向量空间里被统一检索，AI产品的天花板就不再被模态边界卡住了。

当然，开源社区不会坐视。Qwen的多模态embedding已经在路上，更多开源替代会接踵而至。API-only还是可自托管，闭源生态还是开源生态——这场关于AI检索底座归属权的战争，才刚刚打响。

文章来自于微信公众号 "桂宫说事"，作者 "桂宫说事"