DeepSeek V4发布DSpark,大模型推理速度暴涨80%
type
status
date
slug
summary
tags
category
icon
password
网址
在大语言模型(LLM)走向大规模商业化落地的今天,如何降低推理成本、提高响应速度,成为了整个AI行业最迫切需要解决的痛点。作为国内大模型领域的领头羊之一,DeepSeek 再次迎来重磅更新。
近日,DeepSeek 针对其 V4 系列模型进行了一次极具行业颠覆性的工程更新:正式推出了全新的投机解码(Speculative Decoding)框架 DSpark,并同步开源了支撑该版本的全栈推测性解码框架 DeepSpec。
这次更新并非模型参数或基础架构的迭代,而是一次纯粹的工程落地。在不改变模型输出分布、保证无损输出的前提下,DSpark 成功将 DeepSeek-V4 的真实线上推理速度提升了最高达 80%。想要了解更多前沿大模型技术动态和 AI 资讯,欢迎访问 AI门户。
什么是投机解码与DSpark?
在传统的自回归大模型推理中,Token 是串行生成的,即每次只能根据前文预测下一个 Token。这种方式受限于 GPU 的内存带宽,导致高并发场景下推理延迟居高不下。
投机解码(Speculative Decoding)则是解决这一瓶颈的关键技术。其核心思想是:引入一个参数量较小、运行极快的「草稿模型」(draft model),预先一次性生成多个候选 Token,然后由参数量巨大的「目标模型」(target model)进行并行校验。如果校验通过,则直接采用;如果未通过,则进行修正。这种将串行生成转变为并行校验的机制,能够大幅降低端到端的延迟。
而 DeepSeek 此次推出的 DSpark,正是将这一技术在生产环境中玩到了极致。它并非一个全新的模型,而是在 DeepSeek-V4-Pro 基础上引入了高度优化的推测性解码模块,旨在彻底攻克高并发场景下的吞吐量与延迟瓶颈。
DSpark的三大核心技术创新
DSpark 之所以能取得如此惊人的加速效果,主要得益于其在算法和工程架构上的三大创新:
1. 半自回归生成架构(Semi-Autoregressive Generation)
传统的并行草稿模型在生成后续位置的 Token 时,极易出现接受率快速衰减的问题。DSpark 创新性地在保留并行草稿模型高吞吐优势的同时,加入了一个轻量级的串行模块,对 Block 内部 Token 之间的依赖关系进行建模,从而大幅提升了目标模型对草稿 Token 的接受率。
2. 硬件感知的置信度调度验证(Confidence-Scheduled Verification)
在系统高负载时,盲目地将所有草稿 Token 送去验证会造成算力浪费。DSpark 引入了置信度头(Confidence Head)来评估每个 Token 的存活概率。结合硬件感知前缀调度器,系统能够根据 GPU 引擎的实时吞吐量,动态为每个请求量身定制最优的验证长度,确保算力只分配给回报率最高的 Token。
3. 零开销的异步调度机制
为了在真实的线上基础设施中平稳运行,DSpark 的调度器采用了先进的异步机制,完美兼容零开销调度(ZOS)和连续的 CUDA 图回放。它利用前两步的历史预测来决定当前的动态截断长度,从而成功隐藏了调度延迟,避免了 GPU 流水线停顿。
性能实测:推理速度与接受率的双重飞跃
在涵盖数学推理、代码生成和日常对话等多个主流领域的基准测试中,DSpark 的表现全面超越了目前行业领先的自回归模型 Eagle3 和并行草稿模型 DFlash。
- 接受长度提升:在 Qwen3 系列(4B、8B、14B)目标模型上,DSpark 的平均接受长度比 Eagle3 提升了 26.7% 到 30.9%,比 DFlash 提升了 16.3% 到 18.4%。
- 线上真实提速:在维持相同总体吞吐量的情况下,DSpark 将用户的实际生成速度分别提升了 60%-85%(Flash模型) 和 57%-78%(Pro模型)。
这意味着,无论是对于日常对话还是复杂的代码与数学推理任务,用户都能感受到几乎翻倍的响应速度。
全栈开源:DeepSpec 赋能AI开发者
与 DSpark 一同发布的,还有开源基础设施 DeepSpec。这是一个用于训练和评估推测性解码草稿模型的全栈代码库,包含了数据准备工具、草稿模型实现、训练代码和评估脚本。
DeepSpec 将整体流程标准化为三个阶段:
- 数据准备:下载提示词数据,使用推理引擎对目标模型重新生成答案,并构建目标缓存(Target Cache)。
- 模型训练:通过简单的脚本即可启动多卡训练,支持 Qwen3 和 Gemma 等主流目标模型,并内置了 DSpark、DFlash 和 Eagle3 三种算法。
- 性能评估:在 GSM8K、MATH500、HumanEval 和 MT-Bench 等多个权威基准上,对训练好的草稿模型进行多维度衡量。
DeepSpec 的开源,将原本散落在各个顶尖研究团队内部的工程实践,整合为一套可复现、可扩展的标准化工具链。对于想要为自家大模型提速的企业和开发者而言,这无疑是巨大的福音。
总结与行业展望
DeepSeek V4 此次更新 DSpark 框架,不仅展现了其在 AI 工程落地方面的顶尖实力,也为大模型行业的“降本增效”指明了新的方向。通过算法与硬件调度的深度协同,大模型在生产环境中的表现正在变得越来越轻快、高效。
随着大模型技术的不断演进,AGI 的未来正在加速到来。想要获取第一手大模型技术解析、AI新闻以及实用的 AI变现 指南,请持续关注 AI资讯门户,我们为您提供最前沿的 AI日报 与深度行业观察。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)