群核科技发布空间大模型,破解AI“见光死”难题 | AI新闻

type
status
date
slug
summary
tags
category
icon
password
网址
当前的人工智能(AI)发展呈现出一种奇特的割裂感:一方面,大语言模型(LLM)能吟诗作画,在数字世界中展现出惊人的创造力;另一方面,当AI试图进入物理世界时,却常常显得力不从心,一个简单的垃圾桶就可能让先进的机器人陷入困境。这种“见光死”的现象,成为了阻碍AI走向通用人工智能(AGI)的关键瓶颈。
然而,一家深耕空间智能领域的“宝藏公司”——群核科技,正试图通过一条独特的路径,为解决这一难题做出贡献。在其近期的TechDay上,群核科技再度开源两款重磅空间智能模型,为AI与物理世界的融合提供了全新的解题思路。更多前沿的AI资讯,可以访问AI门户网站 https://www.aigc.bar 获取。

“结构优先” vs “视觉优先”:AI理解物理世界的新范式

当前,全球科技巨头在构建“世界模型”(World Model)时,普遍采用“视觉优先”的路径。无论是OpenAI的Sora还是其他文生视频模型,其核心逻辑都是通过分析海量视频数据,让模型以归纳法“悟出”物理规律。这种方法追求的是视觉上的“看起来像”,但在精确性、可交互性和逻辑推理上存在天然的短板。
群核科技则另辟蹊径,提出了一种“结构优先”的哲学。其最新迭代的空间语言模型 SpatialLM 1.5,并非将3D信息“拍扁”成图像或点云,而是将其视为一种精确的、可编辑的“空间语言代码”,类似于计算机辅助设计(CAD)的逆过程。
在现场演示中,当用户输入“生成一个适合老人居住的卧室”时,模型不仅能理解“老人”这一模糊概念并配置轮椅,还能根据“需要一个带扶手的单人床”的追问,精准地从素材库中调取并放置模型。这一切的背后,是大模型对结构化空间指令的深度理解与生成。这种范式上的转变,让AI从一个模糊的“模仿者”,变成了一个精确的“建造者”。

攻克时空一致性:SpatialGen如何构建连贯的3D世界

视频生成是当前人工智能领域的热点,但“时空一致性”始终是难以逾越的障碍。许多AI生成的视频中,人物和背景常常出现不合逻辑的“闪变”或“崩坏”,被戏称为“群魔乱舞”。
群核科技此次发布的另一款全新空间生成模型 SpatialGen,则巧妙地解决了这一痛点。它并非试图逐帧“模拟”一个连续的视频流,而是选择去“构建”一个内在一致的3D空间。其核心是一个多视角扩散模型,能根据一张参考图和空间布局,生成任意相机点位的、空间上完全一致的多张图片。
这种方法的优势在于,它摆脱了对时间连续性的依赖。正如群核首席科学家周子寒所言,它可以实现“跳跃式”的视角生成,极大降低了在连续生成过程中累积错误的概率。在演示中,仅凭几张老房子的照片,SpatialGen就能生成一个可供用户自由“全息漫游”的3D场景,无论视角如何切换,墙上的海报、柜子上的摆件都保持着惊人的一致性。这对于追求内容连贯性的商业视频、虚拟制作等领域,无疑具有巨大的应用潜力。

从酷家乐到空间智能:群核科技的“数据飞轮”

群核科技之所以能走出这条独特的道路,并非偶然。其背后是长达十余年的深厚积累。其广为人知的产品酷家乐,作为全球最大的空间设计软件之一,在服务全球设计师的过程中,沉淀下了海量、高质量且独一无二的结构化空间数据。
这些数据不是杂乱的视频像素,而是由点、线、面等参数构成的精确几何指令。这笔宝贵的财富,为“结构优先”的大模型训练提供了最优质的“养料”。由此,群核科技构建了一个强大的“数据飞轮”:
  1. 工具生成数据:以酷家乐为代表的空间编辑工具,在实际应用中产生海量的结构化数据。
  1. 数据训练模型:利用这些独有的数据资源,训练出像SpatialLM和SpatialGen这样理解空间结构和逻辑的LLM
  1. 模型强化工具:更强大的模型反过来赋能工具,使其具备更高的智能程度、交互性和正确率,从而吸引更多用户,产生更多数据。
这个闭环系统,让群核科技在空间智能领域构筑了难以逾越的技术壁垒,使其成为AI进入物理世界时不可或缺的关键力量。

结论:让AI真正走进现实世界

人工智能的终极目标是解决真实世界的问题。当行业普遍为AI的“见光死”而困扰时,群核科技从物理世界的真实需求出发,凭借其独特的结构化数据积累和“结构优先”的技术哲学,为我们展示了一条充满希望的道路。
从SpatialLM的精确交互到SpatialGen的时空一致性,我们看到AI不再仅仅是数字世界的“画家”,更有潜力成为物理世界的“建筑师”和“工程师”。群核科技的探索,不仅是为自身业务构建了坚实的护城河,也为整个AI行业如何跨越数字与现实的鸿沟,提供了宝贵的启示。
想了解更多关于AI的前沿动态和深度解析,欢迎持续关注领先的AI新闻门户 https://www.aigc.bar
Loading...

没有找到文章