AI离顶级科学家还有多远?SGI-Bench深度评测揭秘科研大模型短板

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:当AI撞上科研的“硬壁垒”

在过去的一年里,大语言模型(LLM)在理解、编程和创意写作等领域展现出了令人惊叹的爆发力。然而,当我们将目光投向人类智慧的最高殿堂——科学研究时,AI的表现究竟如何?近期,上海人工智能实验室发布了一项重磅评测基准 SGI-Bench,为当前狂热的“AI科学家”浪潮泼了一盆冷水。评测结果显示,即便是目前全球顶尖的闭源模型,在面对真实的科研全流程任务时,依然显得力不从心,距离成为一名“合格的科学家”还有很长的路要走。
想要了解更多前沿的 AI资讯AI新闻,欢迎访问 AI门户 获取最新的行业动态。

SGI能力:重新定义AI的科学素养

传统的AI评测往往局限于碎片化的能力,例如回答学科题目或进行简单的单步工具操作。但在真实的科研场景中,科学家需要的是一种“科学通用能力”(Scientific General Intelligence, SGI)。
上海人工智能实验室通过引入实践探究模型(PIM),将科学探究拆解为四个核心循环阶段,这构成了 SGI-Bench 的评测骨架:
  1. 审思(Deliberation):在海量文献中进行深度研究、证据综合与批判性评估。
  1. 构思(Conception):提出具有创新性且可执行的研究假说与实验方案。
  1. 行动(Action):包括“干实验”(代码编写与数值计算)与“湿实验”(实验室物理操作流程规划)。
  1. 感知(Perception):对多模态实验结果进行因果分析与比较推理。
这种全流程的评测体系,直接击中了当前大模型的软肋,揭示了 LLM 在处理长链路、严谨可验证任务时的系统性不足。

深度研究与创意生成:理想很丰满,现实很骨感

在“审思”维度,虽然模型在单个步骤的准确率能达到50%–65%,但一旦进入长链条推理,就会遭遇严重的“结论崩塌”。实验数据显示,当要求模型进行跨文献的精确检索与数值聚合时,最终结论的严格匹配率仅为10%–20%。这意味着,AI在处理复杂的元分析任务时,极易在中间环节出错,导致满盘皆输。
而在“构思”阶段,AI展现出了极强的“脑洞”,但缺乏“落地”能力。以目前的顶级模型为例,其提出的创意新颖度虽然很高,但“可行性”普遍极低。许多模型提出的方案看似高大上,实则缺少数据预处理计划,或者步骤之间的逻辑接口完全无法闭合。这种“能说清但不能落地”的现象,是当前 大模型 进军科研领域的重大障碍。

实验执行:能运行的代码不等于科学的结论

在科研的“行动”环节,SGI-Bench 将其细分为干实验和湿实验:
  • 干实验(Dry Experiment):评测发现,大模型编写的代码虽然“平滑执行率”(无报错运行)高达90%以上,但“科学正确性”却令人堪忧。例如,在引力波体积估计的任务中,模型常因忽略了数值稳定性和累积误差,导致计算出的物理量严重偏离真实值。
  • 湿实验(Wet Experiment):这是AI表现最差的领域之一。模型在处理实验室原子动作序列时,经常出现时序逻辑混乱、遗漏关键步骤(如漏掉采血环节)或打乱实验分支。这表明 AI 尚未理解实验室操作背后的物理逻辑与样本管理逻辑。
对于关注 人工智能 落地应用的开发者来说,这些数据提醒我们,在追求模型规模的同时,必须加强其对科学先验知识和严谨逻辑的掌握。

感知与解读:多模态推理的瓶颈

在“感知”维度,大模型需要解读图像、图表等可视化证据。虽然模型在简单的因果推断上表现尚可,但在“比较推理”上却频频翻车。这涉及到跨样本的细粒度对比,模型往往难以识别细微的跨模态线索。这一能力的缺失,使得 AI 在分析复杂的天文、生物或物理实验数据时,难以给出精准的科学结论。

结语:SGI-Bench 指明了AI自主科研的路线图

SGI-Bench 的出现,不仅是一次“泼冷水”,更是为 AGI 在科学领域的发展绘制了一份路线图。为了让 AI 真正成为科学家的得力助手,未来的技术突破需要聚焦于以下方向:
  • 强化证据聚合与数值鲁棒性,提升长链条研究的准确性。
  • 引入规划感知与结构化监督,确保科研创意的可行性。
  • 超越语法层面的代码生成,聚焦于算法稳定性和数值分析先验。
  • 结合状态模拟,解决湿实验中的复杂分支与时序逻辑问题。
虽然目前的顶尖模型离合格科学家还差得远,但正是这些清晰的差距,为我们指明了进化的方向。如果你对 openaichatGPTclaude 等模型的最新科研能力进展感兴趣,请持续关注 aigc.bar,我们将为你带来第一手的 AI日报 与深度分析。
在通往人工智能自主科研的道路上,我们才刚刚起步。通过不断优化 提示词(Prompt) 和底层架构,或许在不久的将来,我们真的能见证 AI 独立完成一项诺贝尔奖级别的科研成果。结论:总结全文观点,可以提出展望或建议。
Loading...

没有找到文章