阶跃星辰Step 3.7 Flash：Agent时代“烧钱”困境下的高效解法

type

status

date

slug

summary

Agent工作流的“高烧”：Token消耗的结构性难题

早期的AI应用，如简单的对话或文本生成，其成本尚在可控范围内。但随着AI能力的跃升，Agent模型的兴起带来了全新的挑战。Agent的核心在于其自主性、规划能力以及与外部工具的深度集成。一个真实的Agent任务，往往不是一次性的模型调用，而是启动一系列复杂的流程：

多轮交互与推理：Agent需要理解复杂指令，分解任务，并根据反馈进行多轮推理。

工具调用与数据检索：执行搜索、API调用、代码执行等操作，每一次调用都可能触发新的模型交互。

结果验证与修正：Agent需要评估工具输出，判断信息是否准确、完整，并可能需要进行多次尝试或修正。

原生多模态理解：在处理实际任务时，Agent常需面对非结构化的视觉信息，如GUI截图、网页内容、扫描文档等，这要求其具备强大的视觉理解能力。

每一次“思考”、每一次“行动”都在累积模型调用次数，导致token消耗呈指数级增长。米哈游员工为冲刺项目，搭建几十个Agent一晚烧掉200万元token的事件，以及Uber在四个月内烧光全年AI预算的报道，都生动地揭示了这一困境。即便是财力雄厚的微软也对Claude Code的权限进行了限制，而英伟达副总裁的直言“AI花费比真人还贵”，更是将AI成本问题推向了风口浪尖。

在这样的背景下，盲目追求大参数量、复杂架构的Agent模型，在工程实践中变得不可取。开发者们意识到，在选择Agent核心模型时，任务场景、响应速度和成本，与工具调用能力同等重要。

Flash模型的崛起：轻量化与Agent工作流的契合

为了应对“烧钱时代”的挑战，行业内出现了“Flash模型”的集中爆发。Gemini 3.5 Flash、Claude Haiku 4.5、Qwen3.6-Flash等头部厂商纷纷押注轻量高效路线。然而，许多厂商的思路是将Flash模型视为旗舰模型的“削减版”，通过压缩参数来降低成本，但这往往伴随着部分能力的牺牲。

阶跃星辰（Jieyue Xingchen）则提出了不同的策略。他们不把Flash模型当作旗舰的平替，而是专门为Agent工作流重新设计一款模型。继Step 3.5 Flash之后，阶跃星辰最新推出的Step 3.7 Flash，便是这一理念的集大成者，旨在实现“多（模态）、快（速）、好（用）、省（钱）”。

Step 3.7 Flash：Agent时代的全能选手

Step 3.7 Flash 的设计理念，是围绕Agent的真实工作流需求展开，而非简单地进行模型压缩。其核心亮点包括：

1. 原生多模态理解：Agent的“慧眼”

在真实Agent任务中，视觉理解是绕不开的环节，许多输入并非纯文本。Step 3.7 Flash 拥有原生多模态能力，新增了多模图像理解、识别、推理和感知能力，能够处理复杂的视觉信息，并在跨模态上下文中进行联合推理。

深度视觉感知：它不仅能识别UI元素，更能理解应用界面的内容结构、设计逻辑与信息组织方式，甚至能框选驾驶舱界面生成起飞操作说明，完成“环境感知 → 状态理解 → 任务推理 → 操作指导”的完整闭环。

动态感知与检索：与传统模型“一眼定生死”的单步感知不同，Step 3.7 Flash 可以在推理中途自主对图像进行裁切、缩放和重读。当任务超出自身视觉常识边界时，它还能主动发起检索、交叉验证，实现“重新看”和“去查证”在同一个推理循环内自主闭环，极大地拓展了能力上限。

2. Deep Research：搜索与推理的无缝集成

对于需要深度信息检索的任务，Step 3.7 Flash 将搜索能力真正融入推理循环，使其成为Agent思考过程的一部分，而非一个外挂的辅助工具。

自主决策搜索：模型能在推理中途判断信息是否足够，不足时自主发起新一轮检索，并评估检索结果的可信度，再决定下一步行动。这种“搜 - 理解 - 再搜 - 验证 - 再推理”的循环，确保Agent始终锚定真实世界的信息。

结构化交付：在执行“2026年第一季度中国新能源汽车市场”的调研任务时，Step 3.7 Flash 能够快速整合信息，从销量、价格、优缺点到购车建议，生成一份结构化的调研简报。

3. 高效并发与GUI操控：从理解到执行

Agent的价值体现在其执行力上，Step 3.7 Flash在这两方面均表现出色：

多Agent并行能力：凭借最高400 TPS的推理速度，Step 3.7 Flash能够有效承载需要大量并发推理的Agent场景。例如，让40个不同身份的虚拟角色并行判断产品问题，最终汇总偏好，实现更稳健、可解释的结果。

GUI操作的进化：Step 3.7 Flash已具备实时操作设备的能力，而不仅仅是理解界面。在安卓测试机上，它能够流畅完成“汇总微博热搜”、“出行规划（跨App联动）”以及“社媒+电商跨平台任务（如降噪耳机选购）”。这种从“理解界面”到“操作设备”的飞跃，极大地扩展了Agent的应用边界，使其能直接与用户界面进行交互，完成复杂的操作流程。

4. 成本与效率的平衡：Agent时代的新范式

Step 3.7 Flash 采用196B总参数，但通过稀疏MoE架构，推理激活参数仅为11B，这使得它在保持强大能力的同时，显著降低了计算和token消耗。其配备的1.88B ViT视觉编码器，也为多模态处理提供了高效支持。

从benchmark结果来看，Step 3.7 Flash在通用Agent能力、Agentic Coding以及多模态方向均表现出色，处于领先梯队。它证明了Flash模型并非旗舰模型的廉价替代品，而是可以有自己独特的能力矩阵，成为Agent时代的主力军。

正如阶跃星辰联合创始人、CTO朱亦博所言：“我们相信未来的大模型应用方式，不是一个超大尺寸的模型解决所有问题。人类社会有不同的任务，我们追求的是许多不同模型的矩阵，Agent是解决任务的方式。”

Step 3.7 Flash正是在这一理念下诞生的。它代表了AI发展的新方向：在有限的预算内，谁能在每一步调用中少犯错、少超时、少超支，谁就是生产环境的真正赢家。最好的模型，未必是单次推理能力最强的，而是能被持续调用、稳定运行、成本可控的。Step 3.7 Flash以其“多快好省”的特性，为Agent工作流的规模化落地提供了坚实的基础，也为AI的“烧钱时代”带来了高效、务实的解决方案，是AI资讯领域值得关注的重大进展。

了解更多AI资讯，请访问 aigc.bar。