DeepSeek V3.1实测：编码超Claude，AI写作怎么破？

type

status

date

slug

summary

编码新王：硬核实力超越Claude？

长期以来，Claude系列模型以其强大的编程和长文本处理能力备受开发者青睐。然而，DeepSeek V3.1的出现似乎要挑战这一格局。

根据社区的基准测试，DeepSeek V3.1在权威的编程评测集Aider Polyglot上取得了惊人的71.6%得分，这一成绩不仅在开源模型中一骑绝尘，甚至超越了闭源领域的佼佼者Claude 4 Opus。

为了验证其真实能力，我们进行了几项实际的编程测试：

物理模拟编程：我们要求模型编写一个p5.js程序，模拟小球在旋转六边形内的反弹效果。DeepSeek V3.1不仅迅速生成了功能完善的代码，还贴心地加入了重力、摩擦力、转速等可调参数，使得物理效果极为逼真。

3D交互式可视化：我们进一步加大了难度，要求使用Three.js构建一个交互式3D粒子星系。模型成功搭建了包含内球体、中间圆环和外球体的三层结构，框架稳固，逻辑清晰。尽管其默认的UI配色方案略显“硬核”，但其核心编程能力毋庸置疑。

这些测试表明，DeepSeek V3.1在代码生成、理解复杂需求和实现交互功能方面，已经达到了业界顶尖水平。对于开发者而言，这意味着一个全新的、可与Claude和ChatGPT相媲美的强大生产力工具已经诞生。

逻辑与知识：不只是代码机器

一个优秀的大模型不仅要会写代码，更需要具备严谨的逻辑推理和广博的知识储备。DeepSeek V3.1在这些方面同样表现出色。

经典数学难题：面对经典的“牛吃草”问题，模型没有简单地给出答案，而是展示了清晰、完整的解题步骤。从设定变量到列出方程，再到最终求解，每一步推导都有理有据，逻辑链条十分严密。

深度分析能力：当被问及“1~5攻击”与“2~4攻击”两把武器哪个更优时，它没有停留在计算平均伤害的浅层，而是引入了“伤害稳定性”的概念，并运用方差进行分析，展现了超越常规回答的深度思考能力。

知识储备与理解力：在未开启联网搜索的情况下，它能准确回答“冰岛为什么没有蚊子”这类知识性问题。更令人惊艳的是，面对一段充满禅意、逻辑绕口的文字，它没有陷入文字陷阱，反而一语道破天机，指出“它本身就是对理性傲慢的警告，邀请你跳出文字游戏，直观内心”，展现了极高的文本理解境界。

创意写作的“阿喀琉斯之踵”

尽管在编码和逻辑上表现惊艳，但DeepSeek V3.1在创意写作领域却暴露了明显的短板。这似乎也是当前许多技术驱动型LLM的通病。

当我们尝试让它创作一个“蚊子在冰岛开发布会”的荒诞故事时，生成的文本充满了浓重的“AI味”。文章堆砌了大量华丽但空洞的词藻，信息密度过高，意象繁杂，反而削弱了故事的叙事张力和可读性。同样的问题也出现在“AI与人类争夺作者身份”的故事创作中，其行文风格显得生硬，缺乏人类作者的灵气与情感共鸣。

这揭示了一个有趣的行业现象：当主流AI模型在代码、数学等领域疯狂内卷时，人文和创意写作能力似乎成了被遗忘的角落。对于内容创作者来说，这或许是个好消息——AI变现的路径很多，但高质量的原创内容创作，短期内仍难以被完全替代。掌握优秀的Prompt技巧，或许能一定程度上改善输出质量，但这并不能从根本上解决模型创造力的缺失。

技术路线与社区展望

DeepSeek V3.1的发布在技术社区引起了广泛讨论。它在Hugging Face上一经发布便迅速登上趋势榜前列，显示了其巨大的吸引力。

技术上，有观点推测V3.1可能采用了混合模型架构，但这种路线的优劣尚存争议。例如，阿里的Qwen团队就曾表示，他们已决定放弃混合模式，转而分别训练专用模型以保证最高质量。DeepSeek的这一选择，无疑为大模型的技术路线之争增添了新的看点。

此外，官方在网页和APP端移除了“深度思考模式”中的“R1”标识，并增加了原生搜索支持，这些细节变化也预示着其底层架构的持续优化。

总而言之，DeepSeek V3.1是一款特点极其鲜明的人工智能模型。它是一位顶级的程序员和逻辑分析师，但在创意写作上仍有很长的路要走。它的出现，为开发者和技术爱好者提供了新的选择，也促使我们思考AGI的未来：是走向无所不能的通用模型，还是一个由众多“专才”模型构成的协作生态？

想要紧跟最新的AI动态，体验包括Claude、ChatGPT在内的前沿大模型，欢迎访问我们的AI门户 https://www.aigc.bar，获取第一手AI日报和实用指南，探索AI的无限可能。