AI创业避坑指南：为什么被Benchmark衡量的工作不值得做？

type

status

date

slug

summary

在软件工程领域，当 Devin 在 SWE-Bench 上的任务解决率从 13% 飙升到 80% 以上时，很多人惊呼人工智能已经把软件工程吃掉了。但事实真的如此吗？

根据 MIT 的相关研究，虽然最新的 Coding Agents 让代码产出量提升了约 180%，但真正上线发布的代码只多了约 30%。写代码变便宜了，但决定代码能否上线的关键环节，依然需要人类的参与。

为什么编码智能体最先成熟？因为它的对错可以通过编译器和测试套件进行免费、快速的验证。凡是能被测量的东西，就能被训练；能被训练的东西，最终都会被模型吃掉。

然而，在真实的商业世界中，正确性往往是“私有”的。一个运行了十年的老代码库，其内部复杂的依赖关系和历史遗留问题，是任何公开的 Benchmark 都无法测量的。这种正确性只存在于企业的私有数据和特定的运行环境中，属于“不可训练之地”（The Untrainable）。

许多创业者担心，像 openai 的 chatGPT 或 claude 这样更强大的模型一旦发布，自己的产品就会被替代。但实际上，LLM 的发展瓶颈往往不在于“智力”，而在于“许可”与“问责”。

即使一个模型在医疗诊断基准测试上拿到了满分，它也无法直接进入医院的决策链路。因为模型无法持有执照，无法签署责任书，在出事时也无法被起诉。

信任是需要时间慢慢培育的。这需要安全审查、系统集成以及长期的合作关系。更聪明的模型并不能抹去这些复杂的组织关系。因此，创业者的壁垒往往在于如何让模型被目标系统信任，并进入用户的日常工作流中。

在AI变现的路径上，那些看似不光鲜的“脏活”往往是最好的护城河。这包括：

以法律行业为例，一家顶级律所的并购业务涉及大量的保密文件、合规风控和复杂的交易链路。你不可能直接把这些文件丢给一个通用的 Agent 去处理。每个业务领域都有其独特的“形状”，需要定制化的系统来处理。

这种将技术“翻译”并融入具体业务场景的工作，是通用大模型无法直接完成的。谁能把这些脏活累活干好，谁就能在“不可训练之地”占领一席之地。

如果你的产品只是在通用的任务上和前沿模型硬碰硬，那将是一场必输的资本战争。真正的破局点在于：不要在别人的 Benchmark 里卷，去定义你自己的 Benchmark。

优秀的 AI 应用公司正在通过实际行动定义行业标准。例如，Sierra 在智能体成功解决用户问题时收费，转给人工则不收费，它用“已解决”的定义权确立了自己的价值；Cognition 则是通过提供“性能保证”来赢得客户信任。

你能定义一个行业里什么是“好”，是因为这个行业已经在深度使用你的产品。这种定义权来自于真实场景的硬仗，而不是公开的排行榜。

很多人担心大模型实验室会亲自下场做应用，将创业公司赶尽杀绝。但现实中，模型层是一场多方死斗，实验室更需要的是市场份额和生态支持。

即使在消费级 Chat 市场，最强的模型也未能简单地通吃一切。用户习惯、渠道分发和特定场景的集成，比单纯的模型能力更具粘性。

在大模型能力边界不断扩展的今天，意图（Intent）和提示词（Prompt）的设计依然是稀缺的输入。巨头可以守住已有的领地，但新的应用场景总是由那些更早发现某种特定用法的创业者开拓出来的。

“AI 绝望论”只看清了浅层应用被大模型吞噬的趋势，却忽略了深层私域价值的坚固壁垒。随着智能变得越来越便宜，价值将持续向模型触及不到的少数地方流动。

AI 创业者应当避开容易被 Benchmark 量化的红海，深入到那些需要许可、问责和长期集成的“不可训练之地”，通过解决具体行业的“脏活累活”，去定义属于自己的行业标准。

想要获取更多关于AGI时代的商业洞察与每日AI日报，请持续关注AI新闻门户 AIGC.bar，让我们一起见证人工智能的未来发展。