AI新闻 | SAM3重磅登场:从像素到概念,视觉AI迎来GPT-3时刻?
type
status
date
slug
summary
tags
category
icon
password
网址
从2023年Meta推出颠覆性的Segment Anything Model (SAM) 开始,视觉AI领域就进入了快车道。不到一年,SAM 2便将能力扩展至视频,而今,一篇提交至ICLR 2026的神秘盲审论文——《SAM 3: Segment Anything with Concepts》,再次引爆了整个人工智能社区。这不仅仅是一次迭代升级,更是一场深刻的范式革命:让AI从“看见”像素,进化到“理解”概念。这是否意味着,视觉大模型的“GPT-3时刻”真的要来了?想要紧跟AI前沿动态,洞察行业变革,欢迎访问AI门户网站 AIGC.bar (https://aigc.bar) 获取最新AI资讯。
从“分割万物”到“理解万物”:SAM3的核心革命
初代SAM的目标是“分割任何东西”(Segment Anything),它通过交互式提示(如点、框)实现了对图像中任意对象的精确分割,这项能力被称为可提示视觉分割(Promptable Visual Segmentation, PVS)。SAM 2则在此基础上,将PVS能力无缝扩展到了视频领域。
然而,无论是SAM 1还是SAM 2,其核心依然停留在“实例”层面——你点哪里,它就分割哪里,一次只能处理一个对象。这无法解决一个更根本、更普遍的需求:如何让模型理解一个“类别”或“概念”,并在不同场景中找出所有符合该概念的物体?
SAM 3正为此而来。它引入了一个全新的任务标准——可提示概念分割(Promptable Concept Segmentation, PCS)。
- SAM 1/2 (PVS): 用户提供一个视觉提示(一个点或框),模型分割出这一个特定的对象实例。
- SAM 3 (PCS): 用户提供一个概念提示(如文字“猫”或一张猫的示例图),模型会自动在整张图片或整段视频中,检测、分割并跟踪所有的猫。
这种从“这个”到“所有这类”的飞跃,标志着视觉AI正从一个被动的工具,演变为一个具备初级语义理解能力的智能体。
揭秘PCS:SAM3如何用「概念」看世界?
可提示概念分割(PCS)的实现远比听起来复杂。它要求模型不仅要“看得准”,还要“想得对”,并“记得住”。
首先,PCS任务的核心在于处理“概念”的无限性和模糊性。一个简单的名词短语,如“红苹果”或“条纹猫”,在不同光照、角度、遮挡下可能呈现出万千形态。为了应对这种挑战,SAM 3在多个层面进行了创新:
- 交互式细化:用户可以提供初始概念提示(如文字),然后通过图像示例(如框选一个最符合自己想法的目标)来进一步细化,帮助模型精确理解“我说的就是这种”。
- 歧义处理模块:模型架构中内置了专门的“歧义模块”,使其在训练和推理时就能理解并容忍概念的模糊边界,允许多种合理的分割结果共存。
- 解耦的架构:SAM 3采用双编码器-解码器Transformer架构,包含一个负责在图像中发现目标的检测器(Detector)和一个负责在视频中追踪身份的跟踪器(Tracker)。通过引入一个创新的“存在性Token”,模型成功将“识别物体存在”与“定位物体位置”两个任务解耦,避免了相互干扰,提升了处理复杂场景的能力。
强大的“心脏”:人机协同的数据引擎与SA-Co数据集
要让大模型学会理解近乎无限的“概念”,就需要规模空前、质量极高的数据集。传统的人工标注方式对此束手无策。为此,SAM 3团队构建了一套革命性的人机协同数据引擎。
这个引擎是一个高效的闭环系统,由人类标注员、AI标注员和SAM 3模型本身共同组成:
* AI作为标注员:研究团队微调了像Llama 3.2这样的多模态大模型(MLLM),使其成为高效的“AI标注员”和“AI验证员”。AI能够自动生成多样化的概念标签,并判断已有标注的准确性和完整性。
* 人机协同:AI处理了海量的常规标注任务,将宝贵的人力解放出来,专注于处理最棘手、最模糊的“疑难杂症”。
* 从失败中学习:系统能自动发现模型容易出错的“困难负样本”,并将其反馈到训练流程中,让模型在“吃一堑长一智”中持续进化。
通过这种方式,数据标注的吞吐量直接翻倍。最终,这个强大的数据引擎产出了SA-Co数据集家族——目前全球最大规模的开放词汇分割数据集体系,包含数百万个唯一概念和数十亿个掩码标注,覆盖图像和视频。这为整个人工智能领域的研究提供了宝贵的资源。
SOTA性能与未来展望:视觉AI的“GPT-3时刻”已至?
有了先进的理念、创新的架构和海量的数据,SAM 3的性能表现堪称惊艳。
- 性能新高:在权威的LVIS数据集上,SAM 3的零样本分割准确度达到47.0,远超此前的最佳记录(38.5)。在为PCS任务量身打造的SA-Co基准上,其性能更是提升了至少2倍。
- 实时处理:在一张NVIDIA H200 GPU上,SAM 3处理一张图片仅需30毫秒,即使在视频场景中也能保持接近实时的速度,这为其在自动驾驶、机器人、实时视频分析等领域的应用铺平了道路。
SAM 3的出现,远不止是分割工具的又一次升级。它将图像分割从“点选式”的机械操作,提升到了“概念级”的智能理解。这为下一代更强大的多模态LLM、更智能的机器人视觉系统以及更懂用户的交互界面奠定了坚实的基础。
也许,将SAM 3的发布称为视觉AI的“GPT-3时刻”并不为过。它像当年的GPT-3一样,通过一个基础模型展示了一种全新的、可扩展的能力,预示着一个新时代的到来。想获取更多关于AGI、ChatGPT、Claude等模型的深度解析和最新AI日报,请持续关注AI门户 AIGC.bar (https://aigc.bar),与我们一同见证未来。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)