信通院魏凯深度解读:AI下半场,大模型如何从“能说会道”到“能干实事”?欢迎访问AI门户aigc.bar获取最新AI资讯。
type
status
date
slug
summary
tags
category
icon
password
网址
随着ChatGPT、Claude等模型的迭代,人工智能(AI)已经从一个遥远的技术概念,变为了我们日常工作与生活中触手可及的工具。然而,当最初的惊艳与新奇感褪去,一个更深层次的问题浮出水面:除了生成流畅的文本和精美的图片,AI还能做什么?中国信息通信研究院人工智能研究所所长魏凯,在最近的访谈中给出了一个清晰的方向:AI的下半场,大模型需要“少说话,多做事”。这标志着我们正从生成式AI(Generative AI)时代,迈向一个更注重行动和实效的代理型AI(Agentic AI)时代。
从“军备竞赛”到“应用为王”:大模型发展的新拐点
过去一年,我们见证了基础大模型领域异常激烈的“军备竞赛”。正如魏凯所观察到的,从DeepSeek的异军突起,到通义千问、文心一言等模型的你追我赶,榜单头名的位置“保鲜期”甚至不足一个月。这种高速迭代的背后,是动辄数百万美元的巨大投入。
然而,这场竞赛的焦点正在悄然转移。越来越多的公司意识到,与其在预训练的红海中厮杀,不如将精力转向如何“用好”大模型。对于广大企业和开发者而言,如何通过提示词工程(Prompt Engineering)、检索增强生成(RAG)和工作流设计,将现有大模型的能力充分激发出来,开发出能解决特定问题的智能体(Agent),正成为新的价值高地和创业风口。
AI的“操作系统”与“应用”:Agent为何是下半场的关键?
魏凯提出了一个精辟的比喻:大模型是AI的“操作系统”,而Agent则是运行其上的“应用程序”。这个比喻精准地揭示了Agent的核心价值。
一个基础大模型,无论能力多强,其本身并不会直接“干活”。它擅长的是理解、推理和规划,就像一个中枢神经系统。而要完成一项复杂的任务,比如预订一次旅行、分析一份财报或编写一段代码,就需要Agent来扮演执行者的角色。Agent能够:
- 深度理解意图:将用户模糊的需求,拆解成清晰、可执行的步骤。
- 规划任务流程:自主构建“思维链”(Chain of Thought),规划出完成任务的最佳路径。
- 调用外部工具:连接数据库、知识库、API等外部工具,获取准确信息或执行特定操作,有效规避模型的“幻觉”问题。
今天的Agent已经远超早期需要人工编写固定流程的阶段,其自主性越来越强。这正是AI从“能说会道”的聊天机器人,进化为“能干实事”的数字员工的关键一步。
拒绝“刷榜”,标准化测试为AI实战能力“挤水分”
模型能力飞速发展,如何客观、公正地衡量其水平高低,成了一个至关重要的问题。传统的基准测试(Benchmark)多以学术考题为主,并且由于数据集开源,很容易出现模型“背题库”式的刷榜作弊,导致评测结果与实际应用效果严重脱节。
为了解决这一问题,中国信通院推出了“方升”大模型基准测试体系。其核心理念是面向产业实战,检验AI真正“干活”的能力。与传统Benchmark不同,“方升”更侧重于:
- 产业化场景:题目设计大量来源于垂直行业的真实需求,考察模型解决实际问题的能力。
- 非公开数据集:拥有近七百万条内部开发的测试数据,杜绝了“考前刷题”的可能性,保证了测试的公正性。
- 标准化方法论:公开测试方法,引入同行评审,致力于打造行业公认的“度量衡”。
一个可靠的基准测试就像指挥棒,它将引导整个AI行业从追求跑分,转向真正为实体经济创造价值。
AI的未来:少说话,多做事
总结魏凯的观点,AI下半场的演进路线图已然清晰。我们不再满足于一个仅仅输出大量信息的AI,因为这可能导致新的“信息过载”。我们真正需要的是一个能深刻理解我们意图,自主规划并高效完成任务的智能伙伴。
“少说话,多做事”,这不仅是对未来大模型发展的期望,也为所有AI领域的从业者指明了方向。无论是开发功能强大的Agent,还是构建更科学的评测体系,最终目的都是推动AI深入物理世界和产业场景,成为加速人类创新的强大引擎。
未来,随着技术的成熟,每个人都可能拥有多个专属的Agent,成为指挥“千军万马”的超级个体,“一人公司”或许不再是梦想。想要持续跟进AI领域的最新动态和深度解读,欢迎访问AI门户网站https://aigc.bar,这里汇集了最前沿的AI新闻、AI资讯和大模型发展趋势,助你把握AGI时代的脉搏。
Loading...