多模态 | 标签

首页

资讯

往期整理

快手Keye-VL-671B登顶：DeepSeek基座打造国产多模态新王

快手开源Keye-VL-671B模型，基于DeepSeek-V3打造，仅用300B数据训练即超越Qwen3-VL。深入解析其多模态理解、复杂推理能力及独特训练策略，探索国产AGI大模型新突破，关注AI资讯与大模型发展。

深度解读可灵O1：AI视频领域的全能新霸主来了

深入解读可灵O1发布，这款被誉为AI视频界“Banana”的多模态大模型带来了视频增删内容、风格重绘及动作迁移等革命性功能。探索AI,AI资讯,大模型,AI视频,AGI的最新进展。

Gemini 3深度解析：超越聊天，一句话生成一个世界

深入解读谷歌Gemini 3，原生多模态、强大推理与Agent能力屠榜，生成式UI重塑交互，Antigravity平台革新开发。探索AI新闻、大模型最新动态、AGI未来。

FG-CLIP 2：告别AI“近视眼”，开启视觉语言模型精准理解新纪元

深入解读下一代视觉语言模型FG-CLIP 2，它如何通过革命性训练范式解决CLIP的细粒度理解瓶颈，实现中英双语SOTA，为AI、大模型、多模态应用奠定新基石。

Emu3.5震撼发布：不止于生成，原生世界模型开启AI新纪元

智源Emu3.5定义多模态世界大模型，原生世界建模能力颠覆AI格局。通过视频数据学习物理规律，实现视觉叙事与具身智能，引领AGI新方向，最新AI新闻资讯。

解锁AI新视界：多模态文本智能，通往AGI的关键下一步

多模态文本智能,AGI路径,AI深度理解,超越OCR,大模型认知,从感知到决策,人工智能前沿技术,AI资讯

大模型风口下，RAG已死？不，它已进化为RAG-Anything！

深入解读RAG的未来演进。当大模型上下文窗口不断扩展，RAG-Anything通过通用表示、混合检索与证据综合，实现对图、表、文等多模态数据的统一处理，证明其在复杂AI应用中的核心价值。

UniVid：AI视频全能选手，终结理解与生成割裂时代 | AIGC Bar AI资讯

深入解读UniVid，首个统一视频理解与生成的大模型。揭秘其适配器架构、温控对齐与金字塔反射三大创新，了解其在AI视频领域的革命性突破。

抖音开源SAIL-VL2：8B模型挑战GPT-4o，AI大模型新风暴-AIGC.bar

深入解读抖音与LV-NUS联合开源的多模态大模型SAIL-VL2，看其如何以8B小模型之力，通过架构、数据与训练创新，在多项基准上刷新SOTA，推理能力比肩GPT-4o，引领AI新范式。

阿里通义再添猛将！顶级AI科学家许主洪加盟，剑指下一代多模态大模型

顶级AI科学家许主洪加盟阿里通义，从C端应用转向基础大模型研发，此举标志着阿里加码多模态AI竞赛，全力冲刺下一代大模型技术，巩固其在人工智能领域的领先地位。

llama.cpp多模态技术突破：实现图像向量支持的深度解析 | AIGC.bar AI资讯

深入剖析llama.cpp如何从纯文本模型扩展至支持多模态向量，详解其分步处理流程、因果注意力机制的关键作用，以及修复ViT和LLM核心Bug的技术细节，展现前沿AI大模型的进化之路。

ECD数据集横空出世：终结AI图表理解难题，赋能下一代大模型

ECD，高质量合成图表数据集，提升开源MLLM图表理解，涵盖多模态推理、科学AI、数据可视化，为下一代人工智能大模型提供坚实数据基础。

快手Thyme开源：让AI自主编程思考图像，最新AI资讯尽在AIGC导航

快手开源Thyme模型，赋予多模态大模型自主生成代码、调用工具的能力，通过SFT与RL训练，实现超越图像的思考与复杂任务处理，是AGI发展的重要一步。

超越纯文本：JinaVDR如何为AI视觉文档搜索树立新标杆，欢迎访问AI门户aigc.bar

JinaVDR,一个全新的多模态文档检索基准,专为评测AI模型处理图文混排、多语言、跨领域复杂文档的能力而生。深入了解其构建方法、评测结果及对未来大模型发展的意义。

阶跃Step-3发布：国产SOTA模型重塑多模态推理，成本效率新纪元

阶跃星辰发布SOTA级开源模型Step-3，凭借模型-Infra协同设计，在多模态推理登顶，实现百万Token解码成本不到4毛钱的极致性价比，引领AI大模型发展新方向。

Chart-R1震撼发布：7B模型图表推理比肩GPT-4o，最新AI资讯解读

最新AI资讯：Chart-R1模型通过思维链监督与强化学习，实现高级图表推理，7B小模型性能媲美闭源大模型，引领LLM多模态新突破。

Meta破解CLIP多语言魔咒：MetaCLIP 2携300+语言，重塑AI视觉新范式

MetaCLIP 2，由Meta联合顶尖学者谢赛宁、刘壮提出的多模态大模型，彻底破解CLIP“多语言魔咒”，原生支持300+种语言，实现英语与非英语数据互利，推动AI、AGI、LLM发展进入全球化新纪元。

ThinkDiff：为AI绘画装上“大脑”，实现真正多模态推理 | AIGCbar AI资讯

ThinkDiff通过对齐VLM与LLM特征空间，赋能扩散模型多模态推理能力，仅需少量训练即可实现复杂情境下的图像生成，是AIGC领域的重大突破。

MoCa框架革新VLM：从单向到双向的AI多模态革命 | AI资讯-AIGC.bar

深入解读MoCa框架，一种将单向VLM转为双向多模态编码器的革命性方法。通过持续预训练和异构对比微调，解决表示能力弱、泛化性差等问题，实现性能飞跃，定义下一代多模态AI。

vivo亮剑GenieBlue：破解手机AI难题，绕开MoE限制 | AI新闻

深入解读vivo GenieBlue技术，看其如何绕开MoE架构限制，解决多模态大模型(MLLM)在手机端部署时的语言能力下降难题，并在骁龙8 Elite上实现流畅运行。

←上页下页→