无需Skills!首个自造工具AI Agent横空出世,原位自进化
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能飞速发展的今天,我们刚刚适应了为AI Agent(智能体)配备各种“Skills”技能库的范式,一项颠覆性的研究就打破了这一宁静。想象一下,一个完全不需要人类预先投喂工具、不需要在GitHub上查找代码项目的AI,仅凭用户的需求,就能在运行过程中“徒手”制造工具并完成任务。这并非科幻小说,而是最新的原位自进化(In-situ Self-evolving)技术。
这就好比以前我们教AI干活,得先给它配好扳手、锤子;而现在,这个新的Agent像是具备了某种高阶智慧,两手空空上阵,遇到钉子就现场造锤子,遇到螺丝就现场造起子。这种“零Skill”开局却能横扫地狱级评测的现象,正在重塑我们对AGI(通用人工智能)路径的认知。作为关注前沿科技的AI门户,AINEWS 将带您深入解读这一里程碑式的突破。
什么是“原位自进化”框架?
传统的AI进化往往发生在训练阶段,依赖海量的数据标注和昂贵的算力,一旦模型训练完成上线,它的能力基本就固化了。然而,这项由云玦科技团队提出的“原位自进化”框架,将进化的过程推向了推理阶段。
这就意味着,Agent不需要外部监督信号,也不需要标准答案。它仅靠模型推理时的内部反馈,以及上一次交互中积累的经验,就能蒸馏出可复用的通用技能。这种“边做边学”的能力,被认为是通往ASI(人工超级智能)的关键节点。与行业内常见的通过微调(Fine-tuning)来提升模型能力不同,原位自进化关注的是工作流、记忆与工具的动态生成。对于渴望了解最新AI资讯的开发者和研究者来说,这无疑是一个巨大的启发:智能的涌现可能不完全依赖于参数规模,更在于执行机制的创新。
从零开始:128个工具的自我诞生
该研究最令人震撼的细节在于其“从零构建”的过程。在实验中,Agent被投入到包括HLE(Humanity’s Last Exam)在内的多个高难度评测集中。面对从未见过的难题,它没有报错罢工,而是开始编写代码、制造工具。
数据显示,在处理了数千道题目后,该Agent自主生成的工具数量稳定收敛在128个。这个数字非常关键,它揭示了两个重要事实:
1. 工具的通用性:Agent并非为了造工具而造工具,它发现旧工具可以覆盖绝大多数新任务,说明它沉淀出了一套类似人类工作习惯的方法论。
2. 马太效应:使用频率最高的工具包括网页搜索、文件下载、PDF处理等,这与人类专家的工作流惊人一致。
这种自我收敛的特性,证明了大模型具备在无监督环境下提取通用解决范式的能力。这对于关注AI变现和应用落地的企业来说,意味着未来的AI系统可能不再需要庞大的预设插件库,从而大幅降低开发和维护成本。
“工具优先”:解决AI幻觉的新路径
在通往更强智能的道路上,存在三条主要路线:工作流(Workflow)、记忆(Memory)和工具(Tool)。该团队坚定地选择了“工具优先”策略,这基于第一性原理的深刻思考。
LLM(大型语言模型)天然存在幻觉问题,单纯依赖记忆或长上下文,偏差可能会像雪球一样越滚越大。而工具(即代码)具有天然的二元判别信号——代码要么运行成功,要么报错。这种“非黑即白”的反馈机制,为Agent提供了最高质量的自我监督信号。
此外,通过形式化验证的代码,最大程度地保证了安全性。在金融、医疗等对准确性要求极高的领域,这种可控性至关重要。这也正是当前AI新闻中经常讨论的如何解决大模型落地“最后一公里”难题的有效解法。
低成本高回报:开源阵营的“核武器”
令人惊讶的是,取得如此SOTA(State Of The Art)成绩的研究,其背后的实验经费仅为15万元人民币。在DeepSearchQA、FinSearch Comp等多个Benchmark上,这个自进化Agent全方位碾压了基于Gemini 3 Pro的传统Agent,甚至在复杂推理任务中高出十余个百分点。
更重要的是,这套框架是完全开源的。在当前开源与闭源模型激战的背景下,原位自进化技术为开源阵营提供了一把“越用越好用”的利器。如果开源模型能够利用这一机制,在用户的使用过程中不断自我迭代,那么通过网络效应积累的优势,或许能让其在与闭源巨头的竞争中实现弯道超车。
结语
从Skills的爆发到Zero-Skill Agent的出现,AI进化的速度远超我们的想象。原位自进化不仅展示了一种新的技术架构,更预示着AI正在从“被动执行”向“主动创造”转变。对于每一个关注人工智能未来的人来说,这都是一个值得密切跟踪的信号。
想要获取更多关于大模型、Prompt技巧以及最新的AI日报资讯,请持续关注 AINEWS,我们将为您带来最前沿的深度解析。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)