GPT-5“蓝莓山”翻车：Scaling路线受质疑，ChatGPT不降智是伪命题？

type

status

date

slug

summary

蓝莓山下的“滑铁卢”：GPT-5为何连字母都数错？

事件的起因是杜克大学教授Kieran Healy的一篇博客。他记录了自己与GPT-5之间一场关于“blueberry里有几个b”的“拉锯战”。模型的回答出人意料地坚定——3个。

这并非一次简单的失误。无论Healy如何变换提问策略，GPT-5都固执己见：

要求标出位置：模型竟将单词开头的“b”数了两遍，强行凑出三个。

要求拼写出来：模型拼出了“b-l-u-e-b-e-r-r-y”，但依然坚称第七个字母（r）是第三个b。

直接纠正：当被明确告知只有两个“b”时，模型只是将“第三个b”的位置从第七位挪到了第六位，但数量依然是错的。

空格拼写提示：即使用“b l u e b e r r y”这种方式提示，模型依然会把第二个b重复计算，并辩称这里是“double b”。

这种现象不仅出现在英文中，在中文测试里同样翻车。这种匪夷所思的错误，暴露了模型在最基础的符号理解和逻辑推理上存在着巨大的缺陷。它并非真正“理解”了单词和字母的构成，而更像是在一个庞大的概率空间中进行“有根据的猜测”，一旦问题超出了其训练数据的常见模式，这种猜测就会变得荒谬不堪。

不止于数数：GPT-5翻车合订本

“蓝莓山”事件并非孤例。马库斯在其博客中整理了一系列GPT-5近期暴露出的问题，证明这是一种系统性的短板，而非偶然的失误。

物理常识错误：在发布会现场演示的伯努利原理，被网友发现存在明显的科学性错误。

游戏规则混乱：在国际象棋对弈中，仅四个回合就出现了违反基本规则的非法移动，显示其对规则的理解极其脆弱。

多模态识别惯性：面对被P成5条腿的斑马、5个圆环的奥迪标志，模型会忽略图像的真实信息，想当然地按照“斑马有4条腿”、“奥迪是4个环”的惯性思维作答。

这一系列的“翻车”案例共同指向了一个核心问题：泛化能力不足。模型可以出色地完成其训练数据中常见的任务，但一旦遇到分布之外（Out-of-Distribution）的新情况或需要抽象推理的场景，其表现就会急剧下降。

马库斯的“危言耸听”：Scaling真的无法实现AGI吗？

对于这些问题，马库斯给出了一个深刻且略显悲观的诊断：这不是偶然的bug，而是路线的失败。

他引用研究指出，当前大模型广泛使用的思维链（CoT）等技术，在训练分布之外就会失效。这意味着，困扰了人工智能领域近30年的“分布漂移问题”依然没有被解决。无论模型参数从百亿扩展到万亿，只要其核心架构（如Transformer）和学习范式（依赖海量数据进行模式匹配）不变，这个根本性的泛化瓶颈就无法被突破。

马库斯认为，人们不应再对通过无限Scaling实现AGI抱有不切实际的幻想。Attention is NOT All You Need。他再次呼吁业界将目光转向神经符号（Neuro-symbolic）AI，这种将神经网络的模式识别能力与符号系统的逻辑推理能力相结合的混合方法，才可能是克服当前瓶颈、实现真正可靠和可泛化AI的正确途径。

如何在国内体验不降智的AI？

尽管GPT-5等前沿模型暴露出诸多问题，但这并不意味着我们应该否定当前AI工具的巨大价值。对于广大用户而言，一个稳定、可靠、不降智的AI助手，远比一个时而天才、时而“人工智障”的前沿模型更有用。

对于国内用户来说，如何稳定、便捷地使用ChatGPT官方中文版，避免遇到版本回退或性能不稳定的问题，是一个现实的考量。寻找一个可靠的ChatGPT国内使用渠道，比如像 https://chat.aigc.bar 这样的ChatGPT镜像站，能够提供更流畅、更稳定的服务体验。这能帮助用户真正发挥AI的生产力，而不是把时间浪费在与模型的“拉锯战”上。毕竟，我们追求的是一个真正能提升效率的强大工具。

结论

GPT-5的“蓝莓山”翻车事件，如同一面镜子，照出了当前大模型技术路径的光鲜与隐忧。它提醒我们，通往AGI的道路远非坦途，简单的“大力出奇迹”可能已接近极限。关于Scaling与神经符号等不同路线的辩论，将持续塑造人工智能的未来。而对于今天的我们来说，在仰望星空的同时，更要脚踏实地，选择一个像 https://chat.aigc.bar 一样稳定可靠的平台，让AI真正成为我们工作与生活中的得力助手。