陈天桥MiroMind发布重型推理模型!MiroThinker精准预测金价,引领AI资讯新风向

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:大模型竞争的下半场,从“卷速度”到“卷验证”

在当前生成式AI的红海中,绝大多数厂商都在追求更快的响应速度和更低的延迟。然而,由陈天桥带队的AI黑马团队MiroMind却选择了一条截然不同的道路。近日,MiroMind正式发布了新一代重型推理智能体——MiroThinker-1.7和MiroThinker-H1。这两款模型不以秒回见长,却以极其精准的复杂任务处理能力震撼了业界。
这一突破标志着大模型(LLM)正从简单的文本生成向深层的逻辑推理和真实世界任务执行跨越。想要了解更多前沿的AI资讯AI新闻,欢迎访问 AI门户 获取深度解读。

实力霸榜:刷新SOTA的“重型”推理能力

MiroThinker-1.7系列的发布,直接刷新了多项深度研究任务的测试记录(SOTA)。在BrowseComp(网页检索类基准测试)中,MiroThinker-H1达到了88.2%的准确率,在中文适配版本BrowseComp-ZH中也表现不俗。更令人瞩目的是,在被称为“人类终极测试”的HLE-Text中,它取得了47.7%的佳绩,超越了包括GPT系列和Claude系列在内的多款顶尖闭源模型。
这种“重型”推理能力的核心在于它不仅仅是对话,而是能够承担起长链条的智力任务。针对开发者不同的需求,MiroMind提供了235B的大尺寸模型以及30B的mini版本,力求在效率与性能之间找到最优解。

实测震撼:精准预判15天后的黄金价格

MiroThinker最令人称道的实战案例莫过于对金融市场和复杂赛事的预测。在针对黄金价格(XAU/USD)的测试中,模型提前15天预估金价为$5185/oz,而实际市场报价与此误差仅为0.08%(约$4)。这种精准度在波动剧烈的金融领域几乎达到了“未卜先知”的程度。
除了金融领域,在F1上海站的实时预测中,MiroThinker也展现了极强的动态调整能力。它不仅关注车手状态和赛车性能,还是唯一一个将实时天气因素纳入推理链条的模型。随着比赛进程的推进,MiroThinker不断收敛信息,最终在比赛结束前30分钟给出了与真实结果完全一致的预测排名。这种基于逻辑验证而非概率模拟的推理方式,正是AGI(通用人工智能)发展的核心方向。

技术拆解:重型求解器与验证机制的融合

为什么MiroThinker能做到如此精准?这源于其核心技术——重型求解器(heavy-duty solver)。
1. 智能体原生训练(Agent-native Competence): MiroThinker在训练中引入了mid-training(中期训练)阶段,重点强化模型的规划、推理和总结能力。它不是简单地堆砌交互次数,而是确保每一步决策的质量。这种训练让模型在面对复杂任务时,能像人类专家一样先拆解问题,再选择合适的工具,最后整合答案。
2. 双重验证机制: 模型引入了局部验证和全局验证。在推理的每一步,系统都会进行自审(局部验证),只有通过后才继续探索。而在生成完整路径后,模型会回溯整条逻辑链(全局验证),确保答案的严密性而非仅仅是语义上的通顺。
有趣的是,引入验证机制后,模型的交互步骤反而减少了。这说明验证器起到了过滤器的作用,筛除了无效信息,将算力集中在了真正解决问题的关键点上。这种“以慢打快”的策略,在处理科学、金融等严谨领域的问题时具有天然优势。

结语:稳扎稳打的“后来者居上”

MiroMind的崛起并非偶然。从陈天桥的战略布局,到COO邴立东博士的团队搭建,再到杜少雷、安波、杨凯峪等世界级AI科学家的加入,MiroMind在人才、技术和资金上已经完成了深度积淀。
在大家都在追求AI“秒回”的时代,MiroThinker通过“慢推理”和“强验证”实现了弯道超车。它告诉我们,AI的未来不仅在于反应有多快,更在于思考有多深。
关注最新的AI动态,掌握大模型Prompt技巧,请持续关注 AIGC资讯平台,我们为您提供最专业的AI日报和变现指南。
Loading...

没有找到文章