Grok-4评测：马斯克的AI豪赌，是革命还是笑话？Grok国内使用指南

type

status

date

slug

summary

纸面上的“王者”：Grok-4的惊人跑分

不可否认，Grok-4在发布会上展示的基准测试成绩是其最大的宣传亮点。xAI宣称，从Grok-3到Grok-4，其训练计算量增加了整整10倍，带来了性能上的飞跃。

数学与推理能力：在高中数学竞赛数据集AIME上，Grok-4取得了惊人的100%满分，远超Claude 3 Opus等一众顶级模型。

视觉推理：在视觉推理测试集ARC-AGI中，Grok-4同样刷新了SOTA（State-of-the-Art）记录。

商业模拟：在Vending-Bench商业模拟中，Grok-4通过高销量和高利润率的策略，实现了远超人类玩家和其他AI模型的净资产收益。

这些数据集中在数学、物理、自然科学和视觉推理等领域，构建了一个几乎无懈可击的“全能学霸”形象。然而，一个巨大的疑点也随之浮现：在所有公布的评测集中，关于代码能力的测试数据竟被完全“吞掉”了。这为后续的实测埋下了巨大的伏笔。

现实中的“青铜”：惨不忍睹的实测表现

当抛开精心设计的基准测试，进入真实的、开放式的应用场景时，Grok-4的“王者”光环迅速褪色，其表现甚至可以用“惨不忍睹”来形容。

代码能力：几乎为零？

对于习惯了使用AI进行编程辅助的用户来说，Grok-4的表现是灾难性的。当要求它“使用three.js生成一个由立方体组成的猫咪，并让其在平面上原地奔跑”时，Grok-4给出的代码效果是四只腿一起跳动，滑稽而无用。更基础的网页制作任务同样以失败告终。这不禁让人怀疑，发布会上那两个为数不多成功演示的案例（恰好是数学和代码），是否是精心挑选的结果。看来，xAI计划在八月推出专门的代码模型，恰恰反证了当前Grok-4在这方面的严重短板。

多模态能力：差强人意

Grok-4的视觉能力同样令人失望。虽然图像生成速度很快，但生成的图片质量仿佛回到了两年前的技术水平，与Midjourney、DALL-E 3等主流工具相去甚远。在图像理解（视觉推理）方面，面对一张包含多个重叠物品的购物清单图片，Grok-4无法准确计算出物品数量和总价。即便在降低难度后，它虽然能完成一些基础任务（如识别图片并根据水印寻找来源），但这些功能早已被其他AI工具轻松实现，Grok-4并未展现出任何优势。

高昂的定价与不匹配的价值

Grok-4不仅在性能上表现不佳，其定价策略也显得相当“自信”。其订阅套餐价格比OpenAI的同类服务高出约50%，但提供的核心功能却打了折扣。例如，其130k的上下文窗口，仅有竞争对手Gemini 1.5 Pro的13%左右。

高昂的价格、缩水的核心参数，再加上实际应用中的糟糕表现，让Grok-4的性价比显得极低。对于许多国内用户来说，即便想体验，也面临着网络和支付的门槛。大家都在寻找稳定的Grok镜像站或Grok国内使用的便捷渠道。虽然直接访问Grok官网可能存在困难，但通过可靠的Grok镜像服务，如 https://chat.aigc.bar，则成为了一种尝鲜的备选方案。只是，在体验之前，你需要对它的实际能力有一个清醒的认识。

结论：一场仓促的豪赌

综合来看，Grok-4的发布更像是一场仓促的豪赌。它顶着“地球上最聪明AI”的光环，却交出了一份在实际应用中难以令人满意的答卷。无论是被寄予厚望的代码能力，还是作为亮点的多模态功能，都远未达到宣传中的高度，甚至不如其前代Grok-3在某些垂直领域的表现。

马斯克或许需要将Grok-4“回炉重造”，而不是急于用一份漂亮的跑分报告来挑战市场。对于广大用户而言，面对Grok-4，最好的策略是保持观望。在它真正解决掉核心短板、拿出与高昂定价相匹配的实力之前，将它视为一个“可笑的对手”或许更为贴切。如果你仍对它抱有好奇，不妨通过一些提供Grok官方中文版体验的Grok镜像平台（如 https://chat.aigc.bar）浅尝辄止，但切勿抱有太高期望。