智谱GLM-4.7-Flash发布:MLA架构与M5芯片实测 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址

在当今快速迭代的 AI资讯 领域,大模型的轻量化与高性能并重已成为新的竞争高地。智谱AI在上市后动作频频,最新发布的GLM-4.7-Flash不仅在架构设计上大胆创新,更在本地部署的效率上取得了突破性进展。这款模型直接替代了前代产品,并以免费API的形式向开发者开放,引发了业界的广泛关注。想要了解更多关于 LLM 和 AGI 的最新动态,请访问 AIGC.BAR。本文将深入解读这一新模型的核心技术、架构特点以及在苹果芯片上的惊人表现。
引入DeepSeek同款MLA架构:技术路线的融合
GLM-4.7-Flash最引人注目的技术细节,莫过于其首次采用了MLA(Multi-head Latent Attention)架构。这一架构此前由DeepSeek-v2率先使用并验证了其在 大模型 推理效率上的巨大优势。
智谱AI团队在GLM-4.7-Flash中跟进这一技术,标志着主流模型厂商对高效注意力机制的认可。MLA架构的核心优势在于显著降低了推理过程中的KV Cache(键值缓存)占用,使得模型在处理长上下文时更加游刃有余。结合GLM系列一贯的“混合思考模型”设计,GLM-4.7-Flash成功实现了在保持300亿(30B)总参数规模的同时,推理时仅激活约30亿(3B)参数。这种“大参数量、小激活量”的策略,是当前平衡模型智力与计算成本的最优解之一。
混合专家(MoE)架构的精细化调优
作为一款定位为“本地编程与智能体助手”的模型,GLM-4.7-Flash在混合专家(MoE)架构上进行了精细的调整。与同类模型(如Qwen3-30B-A3B)相比,GLM-4.7-Flash虽然深度接近,但在专家数量的配置上有所不同。
- 专家配置:采用64个专家,而非常见的128个。
- 激活策略:在推理过程中,算上共享专家,每次仅激活5个专家。
这种设计使得模型在处理特定任务(如代码修复、创意写作)时,能够更精准地调用相关知识,同时大幅降低计算开销。在SWE-bench Verified代码修复测试中,该模型拿下了59.2的高分,在“人类最后的考试”等评测中,其表现也显著超越了同规模的Qwen3-30B和GPT-OSS-20B,证明了其架构优化的有效性。
苹果M5芯片实测:本地部署的新标杆
对于热衷于本地部署 人工智能 模型的开发者来说,GLM-4.7-Flash的硬件亲和力是一个巨大的惊喜。根据抓取的材料显示,有开发者在配备32GB统一内存和苹果M5芯片的笔记本上进行了实测。
测试结果显示,该模型能达到 43 token/s 的生成速度。这一数据意味着,即使是在轻量级的移动端硬件上,用户也能获得流畅的交互体验。不仅如此,官方还在第一时间提供了对华为昇腾NPU的支持,HuggingFace和vLLM等主流平台也实现了Day 0支持。这意味着无论是苹果生态用户还是国产硬件用户,都能第一时间体验到这款 AI 新模型的强大能力。
免费API与商业化策略的平衡
在商业模式上,智谱AI采取了极为激进的策略。官方API平台上,基础版GLM-4.7-Flash完全免费开放(限1个并发),而高速版GLM-4.7-FlashX的价格也被形容为“相当白菜”。
这种策略不仅降低了开发者使用高性能 大模型 的门槛,也为智谱AI在 AI变现 和生态构建上积累了用户基础。对于需要长上下文(支持到200K)任务、翻译或角色扮演场景的用户来说,GLM-4.7-Flash提供了一个极具性价比的选择。
总结与展望
GLM-4.7-Flash的发布,展示了智谱AI在模型架构优化和端侧部署上的深厚功底。通过引入MLA架构和优化的MoE设计,该模型在性能与效率之间找到了极佳的平衡点。特别是其在苹果芯片上的流畅运行能力,为未来的 AI日报 头条预留了位置——即端侧大模型时代的全面到来。
对于关注 OpenAI、ChatGPT 以及国产大模型发展的观察者来说,GLM-4.7-Flash是一个不可忽视的信号:高性能模型正在变得越来越轻量,越来越触手可及。获取更多前沿 AI新闻 和深度分析,请持续关注 AIGC.BAR。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)