阿里通义再添猛将!顶级AI科学家许主洪加盟,剑指下一代多模态大模型

顶级AI科学家许主洪加盟阿里通义,从C端应用转向基础大模型研发,此举标志着阿里加码多模态AI竞赛,全力冲刺下一代大模型技术,巩固其在人工智能领域的领先地位。

llama.cpp多模态技术突破:实现图像向量支持的深度解析 | AIGC.bar AI资讯

深入剖析llama.cpp如何从纯文本模型扩展至支持多模态向量,详解其分步处理流程、因果注意力机制的关键作用,以及修复ViT和LLM核心Bug的技术细节,展现前沿AI大模型的进化之路。

ECD数据集横空出世:终结AI图表理解难题,赋能下一代大模型

ECD,高质量合成图表数据集,提升开源MLLM图表理解,涵盖多模态推理、科学AI、数据可视化,为下一代人工智能大模型提供坚实数据基础。

快手Thyme开源:让AI自主编程思考图像,最新AI资讯尽在AIGC导航

快手开源Thyme模型,赋予多模态大模型自主生成代码、调用工具的能力,通过SFT与RL训练,实现超越图像的思考与复杂任务处理,是AGI发展的重要一步。

超越纯文本:JinaVDR如何为AI视觉文档搜索树立新标杆,欢迎访问AI门户aigc.bar

JinaVDR,一个全新的多模态文档检索基准,专为评测AI模型处理图文混排、多语言、跨领域复杂文档的能力而生。深入了解其构建方法、评测结果及对未来大模型发展的意义。

Chart-R1震撼发布:7B模型图表推理比肩GPT-4o,最新AI资讯解读

最新AI资讯:Chart-R1模型通过思维链监督与强化学习,实现高级图表推理,7B小模型性能媲美闭源大模型,引领LLM多模态新突破。

阶跃Step-3发布:国产SOTA模型重塑多模态推理,成本效率新纪元

阶跃星辰发布SOTA级开源模型Step-3,凭借模型-Infra协同设计,在多模态推理登顶,实现百万Token解码成本不到4毛钱的极致性价比,引领AI大模型发展新方向。

Meta破解CLIP多语言魔咒:MetaCLIP 2携300+语言,重塑AI视觉新范式

MetaCLIP 2,由Meta联合顶尖学者谢赛宁、刘壮提出的多模态大模型,彻底破解CLIP“多语言魔咒”,原生支持300+种语言,实现英语与非英语数据互利,推动AI、AGI、LLM发展进入全球化新纪元。

ThinkDiff:为AI绘画装上“大脑”,实现真正多模态推理 | AIGCbar AI资讯

ThinkDiff通过对齐VLM与LLM特征空间,赋能扩散模型多模态推理能力,仅需少量训练即可实现复杂情境下的图像生成,是AIGC领域的重大突破。

MoCa框架革新VLM:从单向到双向的AI多模态革命 | AI资讯-AIGC.bar

深入解读MoCa框架,一种将单向VLM转为双向多模态编码器的革命性方法。通过持续预训练和异构对比微调,解决表示能力弱、泛化性差等问题,实现性能飞跃,定义下一代多模态AI。

vivo亮剑GenieBlue:破解手机AI难题,绕开MoE限制 | AI新闻

深入解读vivo GenieBlue技术,看其如何绕开MoE架构限制,解决多模态大模型(MLLM)在手机端部署时的语言能力下降难题,并在骁龙8 Elite上实现流畅运行。

GPT-5真的要来了?员工爆料,体验ChatGPT官方升级版

GPT-5发布在即,员工爆料已抢先体验,传闻今夏上线,将是完全多模态模型。本文深入解读GPT-5新特性、灰度测试传闻,以及它如何开启智能体AI时代,助你了解ChatGPT官方最新动态。

没有找到文章