中兴Mariana突破显存壁垒:让大模型告别“烧钱”| AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址

引言:大模型时代的“甜蜜烦恼”——显存之困

随着以ChatGPT、Claude为代表的大语言模型(LLM)席卷全球,人工智能正以前所未有的深度和广度渗透到各行各业。然而,在这场技术盛宴的背后,一个严峻的挑战日益凸显:GPU显存。就像一辆拥有强大引擎的跑车却只有一个小油箱,有限的显存正在成为制约LLM规模、并发能力和部署成本的核心瓶颈。
问题的关键在于一项名为 KV Cache 的核心技术。它能显著提升模型的生成速度,但代价是消耗巨量的显存。每一个用户、每一次对话都在不断挤占宝贵的显存空间,使其成为一个名副其实的“吞存巨兽”。如何为这头巨兽找到一个既宽敞又经济的“家”,已成为全球AI领域亟待解决的难题。

KV Cache:性能加速器与显存“黑洞”

要理解显存为何告急,我们必须先了解KV Cache(键值缓存)。在LLM进行推理(即生成文本)时,为了避免重复计算,系统会将已经计算过的中间结果(Key和Value向量)存储起来。这极大地加快了后续内容的生成速度,是实现流畅对话体验的关键。
然而,这种机制的弊端也同样明显: * 线性增长:上下文越长,需要缓存的KV数据就越多,显存占用呈线性增长。 * 并发限制:当多个用户同时请求服务时,每个用户都需要独立的KV Cache空间,这会迅速耗尽GPU显存,严重限制了服务的并发处理能力。 * 成本高昂:高性能GPU及其显存价格不菲,单纯依靠堆砌硬件来解决问题,无疑会带来巨大的成本压力。
为了驯服这头“吞存巨兽”,业界进行了多种探索,例如Nvidia的Dynamo多级缓存、微软的LMCache以及阿里巴巴的远端数据库方案,但它们或多或少都存在延迟过高、扩展性不足或架构复杂等问题,未能从根本上完美解决矛盾。

Mariana横空出世:三大创新重定义存储逻辑

在此背景下,中兴通讯与华东师范大学联合提出的Mariana(马里亚纳)分布式共享KV存储技术,为破解这一难题带来了全新的思路。该研究成果已发表于国际顶级期刊,其核心目标直指痛点:如何在保证高吞吐、低延迟的同时,实现KV Cache存储空间的可扩展性。
Mariana的突破性在于其三项精巧的创新设计:

1. 细粒度并发控制(MSCS):告别“排队等待”

传统的存储方案在写入数据时,往往需要锁定整个数据节点,导致高并发场景下出现严重的“排队”现象。Mariana则将锁的粒度从“节点级”细化到了“条目级”
这好比一个大型图书馆,过去一次只允许一个人进入某个书架区域,而Mariana则允许许多人同时在同一个书架区域取放不同的书。它通过在节点内预设多个“槽位”(Slots)并配备独立门锁(Latch),让不同的写入操作可以并发进行,极大地减少了冲突和等待时间,在高并发和热点数据倾斜的场景下,吞吐量和尾延迟都得到了显著优化。

2. 定制化数据布局(TLN):为GPU“量体裁衣”

为了极致的读取速度,Mariana对数据的存储方式进行了深度优化。它采用分离式存储,将Key和Value分开连续存放。这种布局对现代处理器(特别是GPU)的SIMD(单指令多数据流)指令集极为友好,可以一次性将大量连续的Key加载到寄存器中进行并行比较,查找速度实现数量级提升。这种为硬件“量体裁衣”的设计,最大限度地减少了数据访问的次数和时间。

3. 自适应热点缓存:最常用的数据“触手可及”

Mariana还内置了一套轻量级且高效的自适应缓存机制。它使用Count-Min Sketch算法能快速、准确地识别出当前被频繁访问的“热点数据”,并将其元数据缓存到计算节点本地。当下次需要访问这些热点数据时,系统可以直接通过本地缓存快速定位,无需再经过完整的远程查找路径,从而大幅降低了读取延迟。

应用验证与未来展望:拥抱CXL新生态

Mariana的创新设计与大模型KV Cache的需求高度契合,带来了四大核心优势:大容量存储、高吞吐、低延迟读和水平扩展能力
在基于vLLM框架的实际测试中,当GPU显存仅能存放50%的KV数据时,采用Mariana扩展的多级存储方案,其大模型推理的预加载性能得到了显著提升。这意味着,即使在显存有限的情况下,系统也能高效处理大规模并发请求,榨干每一分GPU的计算性能。
更具前瞻性的是,Mariana的设计理念与底层硬件解耦。它目前可以高效运行在RDMA网络上,未来也能平滑迁移至CXL(Compute Express Link)新生态。只需将API替换为CXL.mem操作,就能无缝利用CXL技术带来的超低延迟和硬件级缓存一致性优势,成为下一代大模型推理基础设施的坚实基石。

结论:开启AI普惠新篇章

从优化并发控制到拥抱未来硬件,Mariana的突破不仅是一次技术创新,更是对大模型推理存储逻辑的一次重塑。它证明了显存不再是不可逾越的壁垒,分布式存储同样可以在高吞吐与低延迟之间找到完美的平衡点。
或许在不久的将来,随着Mariana这类技术的成熟与落地,我们将看到百亿甚至千亿参数的大模型在更普遍的硬件上高效运行。这不仅将大幅降低AI应用的门槛和成本,更将推动人工智能的算力红利真正渗透到千行百业。想了解更多关于AI大模型的前沿AI资讯和深度解读,欢迎访问AI门户网站 https://www.aigc.bar,与我们共同见证AGI时代的到来。
Loading...

没有找到文章