Z Tech|对话童晟邦:师从LeCun与谢赛宁,视觉大...

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
01 推荐语
即将结束博士生涯的童晟邦,正站在另一个起点上。
这位在纽约大学读博期间同时师从Yann LeCun与谢赛宁的年轻研究者,最近宣布加入由Yann LeCun推动的AI研究与创业计划AMI Labs,而谢赛宁则是AMI的联合创始人兼首席科学官。
过去几年里,他同时与Yann LeCun和谢赛宁合作,他形容,两位导师几乎代表了两种截然不同、却又高度互补的研究风格。
Peter提到,LeCun是一种“非常有能量”的导师,“在他身边的人都会感受到那种现实扭曲力场,不仅讨论研究方向,甚至会直接指出初始化方式、learning rate或decay策略的问题,给出非常具体的技术建议。”而谢赛宁则几乎系统性地训练了他如何做研究:设计实验、管理复杂变量、组织论文、把一个研究问题真正推进下去。“这是一个非常幸运的经历,很难想象还会有一个更好的导师组合。”
除了导师的支持,童晟邦选择加入AMI的一个重要原因是:这是一个“值得去赌一次”的机会。“有些问题理论上大家可能想过很多,但最终还是需要有人真正去做一次实验。如果不尝试,就永远不会知道答案。”
在他看来,相比已经高度成熟的大模型公司,AMI更像一家带有强烈研究理想主义色彩的机构:vision-first、强调长期使命感,愿意在高不确定性的方向上持续投入。“AMI真正想做的,不是沿着现有技术路径继续优化,而是重新定义问题本身,构建更强的world model与视觉基础智能系统。”
这恰好对应着他多年来最核心的研究兴趣:是否可能构建一个同时具备理解与生成能力的统一通用视觉模型。
这个问题背后,是当前视觉AI领域最核心的一道分野。长期以来,视觉理解与生成像两条彼此独立的技术路线:前者强调高维语义表征,后者依赖diffusion等生成模型中的低维潜空间,两者之间甚至存在天然张力。但Peter始终不相信它们应该被彻底割裂。他不断尝试验证另一种可能:在合适的建模方式下,理解与生成可以彼此促进。
在他看来,一个真正好的general model,本质上应该已包含大部分下游任务所需的能力。数据当然重要,但更关键的是,一个足够强大的通用模型能显著提升任务之间的迁移能力。未来多模态真正重要的变化,未必是出现某一个“killer task”,而是越来越多的问题会被统一重写为state transition或simulation问题。
在这次对话中,我们从童晟邦的成长经历出发,聊到他在纽约大学同时师从Yann LeCun与谢赛宁的研究体验,也聊到他为何选择加入AMI Labs。更重要的是,我们试图沿着他的研究脉络,去理解他对于world model、统一视觉模型,以及“理解与生成是否能够融合”这一核心问题的长期思考。
以下为Z Potentials与童晟邦的对话实录,经编辑修改,Enjoy!
嘉宾介绍:童晟邦(Peter Tong)是AMI Labs的Member of Technical Staff,主要研究方向是multimodal model和world model。 他2026年PhD毕业于NYU,老师是谢赛宁和Yann LeCun, 2023年毕业于UC Berkeley,专业是应用数学, 计算机科学和统计。他的相关成果发表于ICLR、 ICML、 CVPR、 NeurIPS等会议, 并多次获得oral、 spotlight paper。
Z Highlights
• Yann LeCun整体上是一个偏high-level的导师,很有能量,身边的人都能感受到他的那种“现实扭曲力场”。他并不是只停留在宏观层面,在很多时候也会给出非常具体、甚至偏底层的建议。Saining Xie是另一种风格。他整体更加hands-on,也更关注具体实现和研究过程中的细节。在和他合作的初期,他会非常系统地指导我如何做研究,包括实验设计、论文写作等具体能力。
• 关键不在于选择某一种固定范式,而在于:是否能够以尽可能“无损”的方式处理视觉信息,并同时支持理解与生成。
• 我个人比较认同“柏拉图式表征”(platonic representation)的观点——也就是说,对于同一个世界,我们可以有不同的观察方式和描述方式,但底层应该存在一个更加统一的表征空间。
• 机器人或动作相关能力,本质上更像是通用模型能力的一种下游展开,而不是一个完全独立的范式。最终的核心问题仍然是:我们如何构建一个足够强大的通用world model。
• world model可以被定义为一种state-transition建模系统。更具体来说,它的核心是预测“状态如何演化”。
• 最核心的问题不是action,而是模型是否能够正确建模自然世界中最常见的状态转移过程。而这种natural transition,实际上是现实世界中最普遍、数据量最大的模式。
• 我选择加入AMI的原因其实很直接:一方面是导师和团队对我非常支持,没有任何外部压力;另一方面,我认为这个方向本身是一个值得“去赌一次”的机会。有些问题在理论上大家可能已经想过很多,但最终还是需要有人真正去做一次实验,去验证它是否成立。如果不去尝试,就永远不会知道。
• 很多方向可以做得更激进一些,甚至是重新定义问题本身,而不仅仅是沿着现有路径优化。
02 从数学到视觉,从马毅到LeCun:童晟邦的研究路径自述
ZP:可以简单介绍一下,从本科到博士这一阶段,你是如何逐步进入视觉与多模态研究方向的?
童晟邦:我的背景相对有一些跨文化和跨学科。我在国内读到初中,之后去了澳洲完成中学阶段的学习,后来进入伯克利读本科。刚进入伯克利时,我的专业其实是数学。但伯克利的计算机科学氛围非常强,可以说是一种接近“文化现象”的存在。在这样的环境下,很多人都会自然地接触并深入计算机相关的内容。我自己在更早之前也有一些信息学竞赛的背景,因此在接触计算机之后,很快就发现自己对这个方向非常感兴趣,随后逐步转向计算机科学,并在这个过程中开始参与科研项目。
在本科阶段,我有机会进入马毅老师的团队进行科研实习,并持续参与相关研究两年多。这段经历对我影响很大,也为后续申请博士打下了基础。后来在申请博士的过程中,由于此前已经有一定的合作基础,包括与Yann LeCun团队的学术联系,整体过程相对顺利,最终进入NYU,系统性地开展视觉与多模态方向的研究。
ZP:在你之前的研究经历中,你先后接触过不同风格的导师和研究环境。能否谈一谈,马毅老师与Yann LeCun在研究理念或风格上的异同,以及这对你产生了怎样的影响?
童晟邦:我觉得他们在很多方面是非常相似的,尤其是在研究理念上,两个人都有非常强的信念感。这一点对我的影响其实是很大的。在我刚开始做研究的时候,就处在一个具有很强研究哲学的环境里,自然而然会受到这种“相信某个方向”的力量影响。这种氛围和很多其他研究组是不太一样的。从个性上来说,他们也有相似之处,这可能也是他们能够成为很好的朋友的原因之一。整体而言,他们都属于那种对核心问题有坚定判断的人。
马毅老师我个人是非常认同他的很多判断的。他的思考方式非常敏锐,在我接触过的老师中,他属于非常“sharp”的一类。很多他早期提出或尝试的方向,可能在当时看起来时机还不成熟,但过一段时间再回头看,会发现这些思路其实和后来一些重要工作的形式是高度一致的。例如我们之前做的一些工作,当时未必被广泛接受,但从现在的视角来看,与后来的技术路径在形式上已经非常接近。从这个角度来说,他很多核心判断是具有前瞻性的。当然,在具体执行层面,不同团队和研究者之间会有差异。作为资深研究者,导师本身不可能直接参与所有实验细节,更多还是在方向上进行引导,而具体实现过程中,不同人的理解和执行方式也会有所不同。但整体来看,无论是他之前在闭环系统上的探索,还是“白盒”相关工作,或者后续的一些研究方向,我认为在逻辑上是高度自洽的,并且随着时间推移,逐渐被证明是有价值的。
ZP:刚才提到的一些具体研究方向,比如闭环系统或白盒建模,从现在的视角来看,你认为它们与当前主流的一些训练范式之间是否存在某种联系?
童晟邦:是的,其实可以看到一些比较明显的联系。例如闭环的建模方式,从形式上来看,与现在一些训练目标在本质上是相通的,比如都可以理解为以压缩(compression)作为核心目标。再比如“白盒”相关的工作,本质上可以理解为一种展开(unrolling)的过程,比如通过one-step gradient descent(即通过单步梯度更新来近似模型优化过程的一种展开方式)来构建网络结构。这种one-step的展开形式,其实和后来一些方法在结构上是非常类似的。所以从这个角度来看,很多早期的探索在今天是可以被重新理解的,它们在方法论层面是具有一致性的,也进一步说明当时的一些研究思路是有其合理性的。
ZP:那在你早期的研究经历中,是什么契机让你逐渐确定计算机视觉是一个值得长期投入的方向?
童晟邦:其实有一定的“路径依赖”。马毅老师本身是一个资深的视觉研究者,所以我一开始进入这个领域时,就是从视觉方向起步的。最早会接触一些基础的数据集,比如CIFAR、MNIST等,当时因为算力和资源限制,还很难直接做ImageNet规模的任务,但整体上就是一直在处理图像相关的问题。从更宏观的环境来看,当时伯克利本身也是一个视觉研究氛围比较浓厚的地方。尤其是在我刚开始做研究的阶段,大模型和语言模型还没有像现在这样爆发(那时候距离ChatGPT出现还有一段时间),如果随机进入一个实验室做科研,大概率接触到的也是视觉相关方向。
另一方面,也有一些比较个人的原因。我本身会觉得视觉问题更直观、更有趣,对这些“图像世界”的问题天然有兴趣。更重要的是,在马毅老师以及后来的研究环境中,我逐渐接触到一种关于“智能本质”的思考方式。他们会更关注一个更底层的问题:什么是intelligence,以及它是否仅仅局限于语言或符号系统。在这个框架下,视觉被认为是理解世界的重要组成部分,甚至在某些层面上,智能是超越语言的。这种理念对我影响很深,我也逐渐认同这种看法。所以到后来,即使多模态成为一个更大的方向,我依然非常认同视觉本身的价值,并且愿意持续在这个方向上投入。
ZP:这是一个挺有意思的点。很多从事视觉研究的人,往往在生活中也会有摄影或绘画等相关兴趣,你在这方面有类似的爱好吗?
童晟邦:其实反而没有。我知道很多做视觉的人会喜欢摄影或者绘画,但我自己在这些方面并不擅长,比如拍照或者画画都做得不太好。不过我确实很喜欢去欣赏这些东西,比如艺术、画面美感等。虽然不一定能创造出来,但会对这些“美”的表达有比较强的感受力。
从研究角度来说,我觉得视觉这个领域有一种比较“优雅”的特质。它的复杂度是处在一个很有意思的区间:不像一些理论计算机科学问题那样极端复杂,但同时又具有足够的挑战性。这种“复杂但不过载”的特性,会让人觉得既有挑战性,又有探索的乐趣,这也是我一直比较享受做视觉研究的原因之一。
03 在 NYU 的博士修炼:两位理想的导师组合,以及TPU 的“痛苦与收获”
ZP:在NYU的博士阶段,你分别与Yann LeCun和Saining Xie两位导师合作。能否从研究风格和合作体验的角度,谈一谈他们各自的特点,以及对你产生的影响?
童晟邦:两位导师的风格其实非常不同,但正是这种差异,对我的成长帮助很大。先说Yann LeCun。他整体上是一个偏high-level的导师,很有能量,在他身边的人都能感受到他的那种“现实扭曲力场”。
让我印象很深的点是,他并不是只停留在宏观层面,在很多时候也会给出非常具体、甚至偏底层的建议。比如我刚开始和他合作的时候,讨论一些实验细节,他会直接指出初始化方式(initialization)或者学习率(learning rate)设置的问题,甚至会建议具体的调整方向,比如如何做衰减(decay)。这些其实是比较细节的实现问题,但他的判断往往是非常准确的,我回去验证之后,很多时候确实是对的。所以在和他的交流中,会同时存在两种层次:一方面是比较宏观的讨论,比如研究方向和整体思路;另一方面,在某些关键点上,他又能给出非常具体的技术反馈。这种“高低结合”的方式,其实让我觉得非常特别。
另外一个对我影响很大的方面,是他在情绪和信念层面的支持。有一次我在做TPU相关的基础设施调试时,遇到了很大的困难,几乎到了崩溃的状态。当时和他开会,他分享了早期构建深度学习基础设施的经历,比如他和团队当年搭建类似Torch这类系统的过程,并鼓励我继续坚持,把当前的基础设施问题真正解决掉。这对我来说是一个非常重要的节点。那次交流之后,我明显感觉自己可以重新投入到问题中,继续往下推进。这种既有技术判断、又能在关键时刻给予信心支持的能力,我觉得是非常难得的。从这个角度来说,他不仅在方向层面给予指导,在情绪层面也提供了很强的支持。
相比之下,Saining Xie是另一种风格。他整体更加hands-on,也更关注具体实现和研究过程中的细节。在和他合作的初期,他会非常系统地指导我如何做研究,包括实验设计、论文写作等具体能力。比如在论文写作方面,他会讲很多非常细致的方法和标准,这对我帮助非常大,也让我在短时间内有了明显提升。另外一个让我印象很深的,是他在做研究时的系统性。我记得他当时展示过一个非常大的实验表格,用来管理和追踪实验(类似MAE项目中的实验设计方式),这种对实验过程的结构化管理,对我影响很大。后来我也逐渐把这些方法应用到自己的研究中。可以说,我很多研究技能,尤其是如何系统地推进实验、如何形成研究方法论,是在和Saining合作的过程中逐步建立起来的。
整体来看,我是在这样一个“组合式”的环境中成长起来的:Saining提供了非常扎实的细节训练和方法论指导,而Yann则在方向、判断以及信念层面给予支持。这种组合对我来说是非常理想的。我觉得这是一个非常幸运的经历——很难想象一个更好的导师组合。
ZP:在NYU期间,你的大部分研究都是基于TPU完成的。能否分享一下,当时为什么选择TPU,以及它在你的研究过程中带来了哪些关键影响?另外,从现在的视角来看,当时遇到的一些问题是否已经得到改善?
童晟邦:最初选择TPU,其实是一个比较现实的原因——缺乏GPU资源。在学校环境下,我们能够使用的GPU数量是非常有限的,比如早期最多也只是共享一个包含8张A100的节点,很难支撑更大规模的实验。相比之下,Google在当时提供了比较充足的TPU算力资源,这使得我们有机会尝试更大规模的模型和任务。
但与此同时,也带来了一个非常直接的问题:这些算力“很难用”。当时TPU的生态还不成熟,几乎所有开源的codebase默认都是为GPU设计的,无法直接在TPU上运行。从数据读取、存储方式到通信机制,TPU都有一套完全不同的体系,需要重新适配。最开始甚至会遇到一些非常基础但难以排查的问题,比如在不同规模的集群下,数据读写行为不一致,有的配置只能读不能写,或者无法同时进行读写操作。这些问题在文档中几乎没有说明,需要完全依靠试错来理解。
在具体实践中,我们当时尝试做一个多模态模型,需要基于已有代码进行改造。一条路径是基于JAX从头实现,另一条是将已有的PyTorch代码迁移到TPU上。我主要选择了后者,但这也意味着需要依赖Torch/XLA(即PyTorch在TPU上的适配版本)。当时Torch/XLA本身还不稳定,很多功能“可以写但未必能正常运行”。我印象很深的是,甚至在最开始的环境配置阶段,就花了大量时间排查问题。例如仅仅是安装相关依赖就卡了很久,原因是不同TPU实例类型与PyTorch版本之间存在兼容性问题,但这些信息并没有清晰的指引。
在模型真正跑起来之后,又遇到了更底层的挑战。其中一个核心问题是:TPU采用的是static graph(静图)执行方式,而PyTorch默认是dynamic graph(动态图)。这在计算机视觉任务中会带来很大困难,因为视觉数据本身具有不确定性,比如每个batch中图像的位置、数量甚至分辨率都可能不同,这种动态性与TPU的静态编译机制是冲突的。后来我们逐步探索出一些解决方案,比如通过固定输入结构、对数据进行padding等方式,将动态问题转化为“伪静态”形式,使其能够在TPU上编译执行。但在当时,这些都需要从零开始摸索。
另一个比较棘手的问题是调试体验。TPU在报错时往往无法提供明确的错误定位信息,不像标准的PyTorch可以精确到具体代码行。很多时候只能通过大量的logging(打印)和逐步排查来定位问题,这个过程非常低效。此外,还会遇到一些“隐蔽性很强”的问题。例如某些底层kernel(如SDPA attention实现)是针对GPU优化的,但被深度封装在上层库(如Hugging Face的diffusers)中,在TPU上运行时会直接报错,但表面上看不到具体原因。这类问题往往需要逐层追踪调用链才能定位。
尽管如此,当这些问题被逐步解决之后,TPU的优势也非常明显。尤其是在可扩展性(scalability)方面,从少量设备扩展到大规模集群是非常顺畅的,这对大模型训练是非常重要的。从整体来看,这段经历对我帮助很大。一方面提升了我在系统层面和基础设施方面的能力,另一方面也锻炼了在复杂环境下解决问题的能力。如果从现在的视角来看,一些问题确实有所改善,比如工具链更完善、算力获取方式更多元。但在TPU生态,尤其是Torch/XLA相关的部分,很多问题仍然没有完全解决,尤其是在复杂系统问题的自动化处理方面,仍然需要大量人工介入。例如我们当时也讨论过,是否可以构建一个专门的benchmark,用来测试模型在这类复杂系统问题中的泛化能力,因为这些问题往往既类似已有经验,又存在关键差异,对推理能力要求很高。但现实情况是,目前即使是比较先进的coding agent,在处理这类问题时仍然容易出现错误判断,比如给出在当前环境中并不存在的解决方案。因此在TPU相关开发中,人工参与仍然是不可替代的。
ZP:除了基础设施层面的挑战,我们也想进一步了解你在NYU期间的研究工作。能否从整体上梳理一下,从早期工作到后续unified model探索,这一系列研究是如何逐步展开的?
童晟邦:整体来看,我的研究路径是一个逐步从“理解问题”到“构建统一范式”的过程。最早的一项工作,是在多模态模型刚开始出现的时候。当时类似GPT-4V还没有完全开放,市面上已经有一些具备视觉能力的模型,但实际体验下来,会发现它们在很多看似简单的任务上表现并不好。我当时是以一个比较“初学者”的视角去思考这个问题:为什么这些模型在一些直观任务上会失败?这也促成了我第一阶段的工作,核心是去分析这些模型的问题来源。在这个过程中,我们发现一个关键点:视觉表征(representation)非常重要。即使在大模型时代,如何有效地表示视觉信息,仍然是一个核心问题。
在此基础上,第二阶段的工作开始转向:如果问题在于表征,那么我们如何构建更好的visual representation,以及如何更好地构建多模态模型。这也对应到后续的一些工作,例如围绕理解(understanding)展开的研究。一方面,我们尝试改进视觉表征;另一方面,也在探索如何构建更大规模的多模态模型。在这个阶段,我有一个很明显的感受:相比于之前(大约2022年之前),计算机视觉研究的范式发生了明显变化。过去的研究更像是在一个“封闭环境”中进行,有固定的数据集(如ImageNet)、明确的任务(分类、检测、分割等),问题定义相对清晰。但随着大模型的发展,很多问题变得更加开放。数据不再是固定的,任务边界也变得模糊,整个研究范式开始向“开放世界”(open-ended setting...
Loading...

没有找到文章