中国团队Feeling AI力压Claude，夺得Terminal-Bench全球第二

type

status

date

slug

summary

引言：全球AI战场的“最后一公里”争夺战

随着Anthropic发布Claude Opus 4.6以及OpenAI推出GPT-5.3-Codex，全球基础大模型的竞争已进入白热化阶段。在大模型商业化落地的“最后一公里”，业界关注的焦点正从简单的对话能力转向更具实战意义的自主工作流和复杂任务规划能力。

在这个背景下，由斯坦福大学等机构联合推出的Terminal-Bench 2.0成为了衡量AI智能体（Agent）真实工程能力的权威基准。令人瞩目的是，在这场顶级巨头的博弈中，来自中国的团队Feeling AI凭借其研发的CodeBrain-1脱颖而出，以72.9%的高分跻身全球排行榜第二，仅次于OpenAI的Simple Codex，并成功超越了搭载Claude Opus 4.6的众多强劲对手。这标志着中国AI团队在智能体框架定义权上已经走在了世界前沿。欲了解更多前沿趋势，欢迎访问AI门户。

Terminal-Bench 2.0：AI智能体的“魔鬼训练场”

要理解CodeBrain-1夺冠的含金量，首先需要认识Terminal-Bench 2.0。与传统的单次代码生成评测不同，Terminal-Bench是一个在真实命令行终端（CLI）环境下进行的端到端任务测试。

真实环境模拟：所有测试都在隔离的Docker容器中运行，AI必须像人类工程师一样，在Linux环境中执行编译、调试、部署等操作。

长程硬核任务：涵盖89个复杂任务，包括软件工程、系统管理及数据处理，通常需要数十个步骤才能完成。

严苛自动验证：系统根据最终产出的代码、证书或服务运行状态进行0/1判定，不存在“模糊过关”的可能。

在这样高难度的环境下，顶级大模型的平均得分通常低于65%，而CodeBrain-1的强势突围，证明了其在处理复杂系统级任务时的卓越稳定性。

CodeBrain-1的核心黑科技：高效检索与闭环修正

CodeBrain-1之所以能比肩OpenAI，关键在于其对“代码能否正确运行”的极致追求。Feeling AI团队在技术实现上重点打磨了两个核心环节：

精准上下文检索（Useful Context Searching）：在面对庞大的代码库（Code Base）时，信息过载会导致大模型产生“幻觉”。CodeBrain-1利用LSP (Language Server Protocol) 功能，只检索与当前任务高度相关的代码片段、API文档和使用实例。这种“去粗取精”的策略显著降低了干扰，提高了代码生成的准确率。

高效验证反馈循环（Validation Feedback）：对于AI而言，失败并不可怕，可怕的是无法从失败中学习。CodeBrain-1能够从LSP Diagnostics中快速定位错误，并自动补充相关的报错文档和 caller 示例。这种“试错-改进”的推理闭环（Reasoning Loop），让模型能快速从参数类型不匹配等低级错误中恢复，缩短了开发循环。

动态调整计划：会自我进化的“执行大脑”

除了工程上的精准，CodeBrain-1还展现了高阶的动态规划能力。Feeling AI认为，未来的AI不应只是“纸上谈兵”，而应是能够根据环境反馈持续调整策略的“执行大脑”。

在实际应用中，CodeBrain-1不再是死板地执行预设规则，而是在人类定义的约束空间内，动态生成可执行程序。例如在复杂的游戏场景或群体协作任务中，它可以根据实时的观察结果和群体记忆，调整自身的行为选择和长程规划。这种Workflow-centric（以工作流为中心）的设计理念，正是当前AGI研究的核心方向。

性能与成本的双重优化

在商业化落地过程中，Token消耗带来的成本问题始终是企业关注的焦点。CodeBrain-1在保持高性能的同时，也展现了极佳的经济性。

根据实测数据，在相同的基座模型（如Claude Opus 4.6）下，使用CodeBrain-1执行Python子任务所消耗的总Token数比官方原生方案缩减了超过15%。这种“既快又省”的特性，主要得益于其精简的提示词结构和高效的预处理机制，为大模型的规模化应用扫清了成本障碍。

总结：从模型竞赛到框架竞争的跨越

OpenAI联合创始人Andrej Karpathy曾指出，如果模型是AI的内核，那么Agent框架就是AI的操作系统。Feeling AI的成功证明了：虽然顶级模型（LLM）目前仍由少数巨头主导，但在Agent框架和工作流控制这一新战场上，中国创业者拥有巨大的创新空间。

从MemBrain在存储领域夺冠，到CodeBrain-1在编程执行领域跻身全球第二，Feeling AI正通过其“InteractBrain”世界模型体系，一步步攻克AI落地的硬核难题。这不仅是技术的胜利，更是中国AI路径独特竞争力的体现。

关注最新AI资讯，获取更多关于OpenAI、ChatGPT以及Claude的深度报道与Prompt技巧，共同见证人工智能时代的下一次飞跃。