Google放大招:文字、图片、视频、音频、PDF,全部...
type
status
date
slug
summary
tags
category
icon
password
网址
导读
Google悄悄干了一件大事——Gemini Embedding 2正式进入GA阶段,成为Gemini API中第一个原生多模态embedding模型。它能把文本、图片、视频、音频、PDF文档全部映射进同一个统一向量空间,支持100多种语言。已有法律检索公司Harvey、记忆型数据库Supermemory、时尚电商Nuuly跑出实打实的指标提升。开发者社区炸了,但质疑声也同步跟上。
一条推文,撕开了AI检索的新底牌
5月1日,Google for Developers官方账号发了一条看起来不太起眼的推文:
「Gemini Embedding 2已经GA了,来看看它解锁了什么——从agentic多模态RAG到视觉搜索——它把文本、图片、视频、音频和文档映射进一个统一的embedding空间。」
▲ Google for Developers 官方推文宣布Gemini Embedding 2正式GA,9000+次浏览
乍一看像是又一次例行产品更新。但仔细读完官方文档、开发者博客、社区讨论之后,你会发现——这次Google打的牌,根本不在"聊天能力"这张桌上。
它瞄准的是更底层的东西:检索基础设施。
"通用翻译器"——Google自己的比喻,比任何技术名词都好懂
Google AI官方账号几乎同一时间发了一条解释帖,把embedding模型比作"通用翻译器"(universal translator):
「把embedding模型想象成一种'通用翻译器'。它把文本、图片、视频和音频数据转化成一长串数字,就像一个独特的数字指纹。」
▲ Google AI 官方解释帖,近4万次浏览、656赞——一条科普帖能拿到这种数据,说明开发者确实在意这个方向
这个比喻精准地击中了核心:Gemini Embedding 2做的事情,就是给所有模态的数据发一张"统一身份证"。
文字有文字的指纹,图片有图片的指纹,视频有视频的指纹——但这些指纹全部在同一个坐标系里。这意味着你可以:
• 用一句话搜一段视频
• 拍一张图搜同款商品
• 拿PDF+图片+文本混在一起建索引
• 让AI agent在图文音视频里自己翻证据
以前要拆四五套管线才能勉强做到的事,现在一个API调用就搞定。
真正的变化:多模态从"模型能力"变成了"检索基建"
过去说"多模态",大家想到的是什么?是大模型能看图、能听音频、能理解视频。但这些能力一直停留在"生成侧"——模型会回答问题,但你的检索系统依然是割裂的。
文本一套encoder,图片一套encoder,视频、音频再各有各的处理逻辑,最后靠额外对齐、重排、规则层硬拼起来。
Gemini Embedding 2这次最关键的一步,是把"理解能力"推到了召回层。
官方博客里有一句话特别值得细品:
「它不只是一次处理一种模态——它原生理解交错混合输入,你可以在一个请求里传入多种模态的输入(比如图片+文本)。」
▲ Gemini API Embeddings 官方文档页——代码示例、维度策略、多模态接入一应俱全
注意"interleaved input"这个词。它强调的重点在于:一个请求里就能理解混合输入,并压成一个统一向量。
这跟"模型能看图"完全是两码事。
硬核规格:8192 tokens、6张图、120秒视频、180秒音频
Google这次给出了非常详细的输入限制,说明这个能力已经在面向真实工程场景:
默认输出维度3072,但支持通过
output_dimensionality参数截断到更小维度。官方推荐三档:768 / 1536 / 3072。背后用的是Matryoshka Representation Learning(MRL)——大白话说就是"套娃学习":大向量的前缀本身就是一个有效的小向量。你不用每次都上满血3072维,768维可能就够用了,存储和检索成本直接砍掉一大块。
这组数字的意义,远比模型本身更实际——它让工程团队第一次能算清楚:视频知识库能不能做?语音片段要不要直接塞进召回?PDF需不需要预切页?
▲ Google The Keyword 官方博客——由Google DeepMind的产品经理Min Choi和Distinguished Engineer Tom Duerig联合发布
三个案例,三个行业,全是真刀真枪的数字
Google这次没有只讲概念,开发者博客直接甩出了三个落地案例。
Harvey——法律检索:Recall@20精度提升3%
法律行业最怕的就是"召回看似对、引用实际错"。Harvey在法律场景benchmark上,换用Gemini Embedding 2后,Recall@20精度提升了3个百分点。别小看这3%——在法律场景,一个错误引用可能就是一场官司。
Supermemory——记忆型数据库:search Recall@1提升40%
Supermemory是做AI记忆和个人知识库的。集成后,search Recall@1直接提升了40%。这个数字太炸了——它意味着"你问一个问题,系统第一次返回的结果就是正确答案"的概率,提高了将近一半。
Nuuly——时尚电商视觉搜索:识别率从74%飙升到超过90%
这是最让普通人秒懂的案例。Nuuly做服饰租赁,需要把仓库里拍的衣服照片和商品目录匹配起来。用了Gemini Embedding 2之后,Match@20从60%提升到接近87%,整体识别率从74%飙到超过90%。
拍一张衣服照片,系统就能在库存里精准找到"它是谁"——这才是"统一向量空间"四个字的真实含义。
▲ Google Developers Blog——详细展示了agentic multimodal RAG、visual search等应用场景和工程规格
它在给谁铺路?两个关键词:Agentic Retrieval
seed tweet里专门用了
agentic retrieval这个词。这几个字绝对经过反复斟酌。因为AI agent要真正工作起来,光"会回答"远远不够。它需要:
• 自己找资料
• 跨文档比对
• 在图片、视频、PDF、语音里翻证据
• 把证据拼成可执行的决策
Gemini Embedding 2补的,就是agent的眼睛和记忆索引层。
以前agent只能在纯文本里翻找,现在它可以"看"图片、"听"音频、"读"PDF,然后在同一个语义空间里做cross-modal检索。
Google把embedding和Gemini Enterprise Agent Platform绑在一起推,意图已经很明显:它想让开发者用一套检索底座,撑起整个agentic工作流。
社区反应:兴奋和警惕同时拉满
开发者社区的反应很有意思——既兴奋又警觉。
Max Calkin直接说:没有Gemini Embedding 2,他的产品beacn.space根本做不出来。这是builder视角最直接的反馈——好不好用,看能不能立刻长出新功能。
▲ Max Calkin:没有Gemini Embedding 2,beacn.space就不可能实现
AI Security Gateway则从安全角度泼了一盆冷水:多模态embedding意味着图片、视频和音频现在都会通过你的embedding API。面部信息、文档、带有名字的音频——PII暴露面显著扩大,远超纯文本RAG的范围。
▲ AI Security Gateway:多模态embedding让PII暴露面显著扩大
Vanar则点出了另一个关键问题:这确实是跨模态统一表示的重要一步,但接下来真正要看的,是在现实世界的噪声和规模下,检索准确率到底站不站得住。
▲ Vanar:关键看真实世界噪声和规模下的检索准确性
Hacker News:有人说"colossal",有人直接问开源替代
HN上的讨论更加直白。
用户jeanloolz说:"This is colossal."因为几乎所有常见格式都能做embedding了。但他也补了一句——context window跟纯文本比还是偏小。
另一位用户Grimblewald立刻拿它跟Qwen的开源多模态embedding对比,质疑API-only模式下开发者根本没有控制权:
「Qwen开箱就能给出很好的embedding,还能自己控制方向……看不出这边的附加价值在哪。」
还有人第一反应就是问pricing——对很多工程团队来说,embedding永远看的不只是模型质量,还有能不能大规模索引、长期跑得起。
▲ Hacker News上的讨论——36个赞,5条评论,兴奋与质疑并存
别忽视的暗面:迁移成本和治理风险
统一向量空间听起来很美,但有两个现实问题不能回避:
第一,切换embedding模型意味着整库重建索引。
这对任何已经在跑向量检索的团队来说都是大工程。即使新模型效果更好,也不等于能"无痛替换"。shadow test、A/B测试、逐步迁移,一个都不能少。
第二,多模态进来后,数据治理的复杂度直接翻倍。
以前只处理文本,团队主要担心文本泄露。现在图像里的脸、音频里的名字、视频里的场景、PDF里的敏感版式,全部进入了同一条处理链。
合规团队如果还在用纯文本时代的审计逻辑,迟早要出事。
写在最后:检索底座的战争,才刚刚开始
这次Gemini Embedding 2的GA,表面上是一次产品更新,但更深层的信号是:Google正在把多模态从"演示能力"推向"开发者基础设施"。
以前多模态是demo里的亮点,现在它开始变成检索栈里的默认层。
当图、文、音、视频、PDF终于能在同一个向量空间里被统一检索,AI产品的天花板就不再被模态边界卡住了。
当然,开源社区不会坐视。Qwen的多模态embedding已经在路上,更多开源替代会接踵而至。API-only还是可自托管,闭源生态还是开源生态——这场关于AI检索底座归属权的战争,才刚刚打响。
文章来自于微信公众号 "桂宫说事",作者 "桂宫说事"
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)