Z Tech｜对话童晟邦：师从LeCun与谢赛宁，视觉大...

type

status

date

slug

summary

category

icon

password

网址

01 推荐语

即将结束博士生涯的童晟邦，正站在另一个起点上。

这位在纽约大学读博期间同时师从Yann LeCun与谢赛宁的年轻研究者，最近宣布加入由Yann LeCun推动的AI研究与创业计划AMI Labs，而谢赛宁则是AMI的联合创始人兼首席科学官。

过去几年里，他同时与Yann LeCun和谢赛宁合作，他形容，两位导师几乎代表了两种截然不同、却又高度互补的研究风格。

Peter提到，LeCun是一种“非常有能量”的导师，“在他身边的人都会感受到那种现实扭曲力场，不仅讨论研究方向，甚至会直接指出初始化方式、learning rate或decay策略的问题，给出非常具体的技术建议。”而谢赛宁则几乎系统性地训练了他如何做研究：设计实验、管理复杂变量、组织论文、把一个研究问题真正推进下去。“这是一个非常幸运的经历，很难想象还会有一个更好的导师组合。”

除了导师的支持，童晟邦选择加入AMI的一个重要原因是：这是一个“值得去赌一次”的机会。“有些问题理论上大家可能想过很多，但最终还是需要有人真正去做一次实验。如果不尝试，就永远不会知道答案。”

在他看来，相比已经高度成熟的大模型公司，AMI更像一家带有强烈研究理想主义色彩的机构：vision-first、强调长期使命感，愿意在高不确定性的方向上持续投入。“AMI真正想做的，不是沿着现有技术路径继续优化，而是重新定义问题本身，构建更强的world model与视觉基础智能系统。”

这恰好对应着他多年来最核心的研究兴趣：是否可能构建一个同时具备理解与生成能力的统一通用视觉模型。

这个问题背后，是当前视觉AI领域最核心的一道分野。长期以来，视觉理解与生成像两条彼此独立的技术路线：前者强调高维语义表征，后者依赖diffusion等生成模型中的低维潜空间，两者之间甚至存在天然张力。但Peter始终不相信它们应该被彻底割裂。他不断尝试验证另一种可能：在合适的建模方式下，理解与生成可以彼此促进。

在他看来，一个真正好的general model，本质上应该已包含大部分下游任务所需的能力。数据当然重要，但更关键的是，一个足够强大的通用模型能显著提升任务之间的迁移能力。未来多模态真正重要的变化，未必是出现某一个“killer task”，而是越来越多的问题会被统一重写为state transition或simulation问题。

在这次对话中，我们从童晟邦的成长经历出发，聊到他在纽约大学同时师从Yann LeCun与谢赛宁的研究体验，也聊到他为何选择加入AMI Labs。更重要的是，我们试图沿着他的研究脉络，去理解他对于world model、统一视觉模型，以及“理解与生成是否能够融合”这一核心问题的长期思考。

以下为Z Potentials与童晟邦的对话实录，经编辑修改，Enjoy！

嘉宾介绍：童晟邦（Peter Tong）是AMI Labs的Member of Technical Staff，主要研究方向是multimodal model和world model。他2026年PhD毕业于NYU，老师是谢赛宁和Yann LeCun， 2023年毕业于UC Berkeley，专业是应用数学，计算机科学和统计。他的相关成果发表于ICLR、 ICML、 CVPR、 NeurIPS等会议, 并多次获得oral、 spotlight paper。

Z Highlights

• Yann LeCun整体上是一个偏high-level的导师，很有能量，身边的人都能感受到他的那种“现实扭曲力场”。他并不是只停留在宏观层面，在很多时候也会给出非常具体、甚至偏底层的建议。Saining Xie是另一种风格。他整体更加hands-on，也更关注具体实现和研究过程中的细节。在和他合作的初期，他会非常系统地指导我如何做研究，包括实验设计、论文写作等具体能力。

• 关键不在于选择某一种固定范式，而在于：是否能够以尽可能“无损”的方式处理视觉信息，并同时支持理解与生成。

• 我个人比较认同“柏拉图式表征”（platonic representation）的观点——也就是说，对于同一个世界，我们可以有不同的观察方式和描述方式，但底层应该存在一个更加统一的表征空间。

• 机器人或动作相关能力，本质上更像是通用模型能力的一种下游展开，而不是一个完全独立的范式。最终的核心问题仍然是：我们如何构建一个足够强大的通用world model。

• world model可以被定义为一种state-transition建模系统。更具体来说，它的核心是预测“状态如何演化”。

• 最核心的问题不是action，而是模型是否能够正确建模自然世界中最常见的状态转移过程。而这种natural transition，实际上是现实世界中最普遍、数据量最大的模式。

• 我选择加入AMI的原因其实很直接：一方面是导师和团队对我非常支持，没有任何外部压力；另一方面，我认为这个方向本身是一个值得“去赌一次”的机会。有些问题在理论上大家可能已经想过很多，但最终还是需要有人真正去做一次实验，去验证它是否成立。如果不去尝试，就永远不会知道。

• 很多方向可以做得更激进一些，甚至是重新定义问题本身，而不仅仅是沿着现有路径优化。

02 从数学到视觉，从马毅到LeCun：童晟邦的研究路径自述

ZP：可以简单介绍一下，从本科到博士这一阶段，你是如何逐步进入视觉与多模态研究方向的？

童晟邦：我的背景相对有一些跨文化和跨学科。我在国内读到初中，之后去了澳洲完成中学阶段的学习，后来进入伯克利读本科。刚进入伯克利时，我的专业其实是数学。但伯克利的计算机科学氛围非常强，可以说是一种接近“文化现象”的存在。在这样的环境下，很多人都会自然地接触并深入计算机相关的内容。我自己在更早之前也有一些信息学竞赛的背景，因此在接触计算机之后，很快就发现自己对这个方向非常感兴趣，随后逐步转向计算机科学，并在这个过程中开始参与科研项目。

在本科阶段，我有机会进入马毅老师的团队进行科研实习，并持续参与相关研究两年多。这段经历对我影响很大，也为后续申请博士打下了基础。后来在申请博士的过程中，由于此前已经有一定的合作基础，包括与Yann LeCun团队的学术联系，整体过程相对顺利，最终进入NYU，系统性地开展视觉与多模态方向的研究。

ZP：在你之前的研究经历中，你先后接触过不同风格的导师和研究环境。能否谈一谈，马毅老师与Yann LeCun在研究理念或风格上的异同，以及这对你产生了怎样的影响？

童晟邦：我觉得他们在很多方面是非常相似的，尤其是在研究理念上，两个人都有非常强的信念感。这一点对我的影响其实是很大的。在我刚开始做研究的时候，就处在一个具有很强研究哲学的环境里，自然而然会受到这种“相信某个方向”的力量影响。这种氛围和很多其他研究组是不太一样的。从个性上来说，他们也有相似之处，这可能也是他们能够成为很好的朋友的原因之一。整体而言，他们都属于那种对核心问题有坚定判断的人。

马毅老师我个人是非常认同他的很多判断的。他的思考方式非常敏锐，在我接触过的老师中，他属于非常“sharp”的一类。很多他早期提出或尝试的方向，可能在当时看起来时机还不成熟，但过一段时间再回头看，会发现这些思路其实和后来一些重要工作的形式是高度一致的。例如我们之前做的一些工作，当时未必被广泛接受，但从现在的视角来看，与后来的技术路径在形式上已经非常接近。从这个角度来说，他很多核心判断是具有前瞻性的。当然，在具体执行层面，不同团队和研究者之间会有差异。作为资深研究者，导师本身不可能直接参与所有实验细节，更多还是在方向上进行引导，而具体实现过程中，不同人的理解和执行方式也会有所不同。但整体来看，无论是他之前在闭环系统上的探索，还是“白盒”相关工作，或者后续的一些研究方向，我认为在逻辑上是高度自洽的，并且随着时间推移，逐渐被证明是有价值的。

ZP：刚才提到的一些具体研究方向，比如闭环系统或白盒建模，从现在的视角来看，你认为它们与当前主流的一些训练范式之间是否存在某种联系？

童晟邦：是的，其实可以看到一些比较明显的联系。例如闭环的建模方式，从形式上来看，与现在一些训练目标在本质上是相通的，比如都可以理解为以压缩（compression）作为核心目标。再比如“白盒”相关的工作，本质上可以理解为一种展开（unrolling）的过程，比如通过one-step gradient descent（即通过单步梯度更新来近似模型优化过程的一种展开方式）来构建网络结构。这种one-step的展开形式，其实和后来一些方法在结构上是非常类似的。所以从这个角度来看，很多早期的探索在今天是可以被重新理解的，它们在方法论层面是具有一致性的，也进一步说明当时的一些研究思路是有其合理性的。

ZP：那在你早期的研究经历中，是什么契机让你逐渐确定计算机视觉是一个值得长期投入的方向？

童晟邦：其实有一定的“路径依赖”。马毅老师本身是一个资深的视觉研究者，所以我一开始进入这个领域时，就是从视觉方向起步的。最早会接触一些基础的数据集，比如CIFAR、MNIST等，当时因为算力和资源限制，还很难直接做ImageNet规模的任务，但整体上就是一直在处理图像相关的问题。从更宏观的环境来看，当时伯克利本身也是一个视觉研究氛围比较浓厚的地方。尤其是在我刚开始做研究的阶段，大模型和语言模型还没有像现在这样爆发（那时候距离ChatGPT出现还有一段时间），如果随机进入一个实验室做科研，大概率接触到的也是视觉相关方向。

另一方面，也有一些比较个人的原因。我本身会觉得视觉问题更直观、更有趣，对这些“图像世界”的问题天然有兴趣。更重要的是，在马毅老师以及后来的研究环境中，我逐渐接触到一种关于“智能本质”的思考方式。他们会更关注一个更底层的问题：什么是intelligence，以及它是否仅仅局限于语言或符号系统。在这个框架下，视觉被认为是理解世界的重要组成部分，甚至在某些层面上，智能是超越语言的。这种理念对我影响很深，我也逐渐认同这种看法。所以到后来，即使多模态成为一个更大的方向，我依然非常认同视觉本身的价值，并且愿意持续在这个方向上投入。

ZP：这是一个挺有意思的点。很多从事视觉研究的人，往往在生活中也会有摄影或绘画等相关兴趣，你在这方面有类似的爱好吗？

童晟邦：其实反而没有。我知道很多做视觉的人会喜欢摄影或者绘画，但我自己在这些方面并不擅长，比如拍照或者画画都做得不太好。不过我确实很喜欢去欣赏这些东西，比如艺术、画面美感等。虽然不一定能创造出来，但会对这些“美”的表达有比较强的感受力。

从研究角度来说，我觉得视觉这个领域有一种比较“优雅”的特质。它的复杂度是处在一个很有意思的区间：不像一些理论计算机科学问题那样极端复杂，但同时又具有足够的挑战性。这种“复杂但不过载”的特性，会让人觉得既有挑战性，又有探索的乐趣，这也是我一直比较享受做视觉研究的原因之一。

03 在 NYU 的博士修炼：两位理想的导师组合，以及TPU 的“痛苦与收获”

ZP：在NYU的博士阶段，你分别与Yann LeCun和Saining Xie两位导师合作。能否从研究风格和合作体验的角度，谈一谈他们各自的特点，以及对你产生的影响？

童晟邦：两位导师的风格其实非常不同，但正是这种差异，对我的成长帮助很大。先说Yann LeCun。他整体上是一个偏high-level的导师，很有能量，在他身边的人都能感受到他的那种“现实扭曲力场”。

让我印象很深的点是，他并不是只停留在宏观层面，在很多时候也会给出非常具体、甚至偏底层的建议。比如我刚开始和他合作的时候，讨论一些实验细节，他会直接指出初始化方式（initialization）或者学习率（learning rate）设置的问题，甚至会建议具体的调整方向，比如如何做衰减（decay)。这些其实是比较细节的实现问题，但他的判断往往是非常准确的，我回去验证之后，很多时候确实是对的。所以在和他的交流中，会同时存在两种层次：一方面是比较宏观的讨论，比如研究方向和整体思路；另一方面，在某些关键点上，他又能给出非常具体的技术反馈。这种“高低结合”的方式，其实让我觉得非常特别。

另外一个对我影响很大的方面，是他在情绪和信念层面的支持。有一次我在做TPU相关的基础设施调试时，遇到了很大的困难，几乎到了崩溃的状态。当时和他开会，他分享了早期构建深度学习基础设施的经历，比如他和团队当年搭建类似Torch这类系统的过程，并鼓励我继续坚持，把当前的基础设施问题真正解决掉。这对我来说是一个非常重要的节点。那次交流之后，我明显感觉自己可以重新投入到问题中，继续往下推进。这种既有技术判断、又能在关键时刻给予信心支持的能力，我觉得是非常难得的。从这个角度来说，他不仅在方向层面给予指导，在情绪层面也提供了很强的支持。

相比之下，Saining Xie是另一种风格。他整体更加hands-on，也更关注具体实现和研究过程中的细节。在和他合作的初期，他会非常系统地指导我如何做研究，包括实验设计、论文写作等具体能力。比如在论文写作方面，他会讲很多非常细致的方法和标准，这对我帮助非常大，也让我在短时间内有了明显提升。另外一个让我印象很深的，是他在做研究时的系统性。我记得他当时展示过一个非常大的实验表格，用来管理和追踪实验（类似MAE项目中的实验设计方式），这种对实验过程的结构化管理，对我影响很大。后来我也逐渐把这些方法应用到自己的研究中。可以说，我很多研究技能，尤其是如何系统地推进实验、如何形成研究方法论，是在和Saining合作的过程中逐步建立起来的。

整体来看，我是在这样一个“组合式”的环境中成长起来的：Saining提供了非常扎实的细节训练和方法论指导，而Yann则在方向、判断以及信念层面给予支持。这种组合对我来说是非常理想的。我觉得这是一个非常幸运的经历——很难想象一个更好的导师组合。

ZP：在NYU期间，你的大部分研究都是基于TPU完成的。能否分享一下，当时为什么选择TPU，以及它在你的研究过程中带来了哪些关键影响？另外，从现在的视角来看，当时遇到的一些问题是否已经得到改善？

童晟邦：最初选择TPU，其实是一个比较现实的原因——缺乏GPU资源。在学校环境下，我们能够使用的GPU数量是非常有限的，比如早期最多也只是共享一个包含8张A100的节点，很难支撑更大规模的实验。相比之下，Google在当时提供了比较充足的TPU算力资源，这使得我们有机会尝试更大规模的模型和任务。

但与此同时，也带来了一个非常直接的问题：这些算力“很难用”。当时TPU的生态还不成熟，几乎所有开源的codebase默认都是为GPU设计的，无法直接在TPU上运行。从数据读取、存储方式到通信机制，TPU都有一套完全不同的体系，需要重新适配。最开始甚至会遇到一些非常基础但难以排查的问题，比如在不同规模的集群下，数据读写行为不一致，有的配置只能读不能写，或者无法同时进行读写操作。这些问题在文档中几乎没有说明，需要完全依靠试错来理解。

在具体实践中，我们当时尝试做一个多模态模型，需要基于已有代码进行改造。一条路径是基于JAX从头实现，另一条是将已有的PyTorch代码迁移到TPU上。我主要选择了后者，但这也意味着需要依赖Torch/XLA（即PyTorch在TPU上的适配版本）。当时Torch/XLA本身还不稳定，很多功能“可以写但未必能正常运行”。我印象很深的是，甚至在最开始的环境配置阶段，就花了大量时间排查问题。例如仅仅是安装相关依赖就卡了很久，原因是不同TPU实例类型与PyTorch版本之间存在兼容性问题，但这些信息并没有清晰的指引。

在模型真正跑起来之后，又遇到了更底层的挑战。其中一个核心问题是：TPU采用的是static graph（静图）执行方式，而PyTorch默认是dynamic graph（动态图）。这在计算机视觉任务中会带来很大困难，因为视觉数据本身具有不确定性，比如每个batch中图像的位置、数量甚至分辨率都可能不同，这种动态性与TPU的静态编译机制是冲突的。后来我们逐步探索出一些解决方案，比如通过固定输入结构、对数据进行padding等方式，将动态问题转化为“伪静态”形式，使其能够在TPU上编译执行。但在当时，这些都需要从零开始摸索。

另一个比较棘手的问题是调试体验。TPU在报错时往往无法提供明确的错误定位信息，不像标准的PyTorch可以精确到具体代码行。很多时候只能通过大量的logging（打印）和逐步排查来定位问题，这个过程非常低效。此外，还会遇到一些“隐蔽性很强”的问题。例如某些底层kernel（如SDPA attention实现）是针对GPU优化的，但被深度封装在上层库（如Hugging Face的diffusers）中，在TPU上运行时会直接报错，但表面上看不到具体原因。这类问题往往需要逐层追踪调用链才能定位。

尽管如此，当这些问题被逐步解决之后，TPU的优势也非常明显。尤其是在可扩展性（scalability）方面，从少量设备扩展到大规模集群是非常顺畅的，这对大模型训练是非常重要的。从整体来看，这段经历对我帮助很大。一方面提升了我在系统层面和基础设施方面的能力，另一方面也锻炼了在复杂环境下解决问题的能力。如果从现在的视角来看，一些问题确实有所改善，比如工具链更完善、算力获取方式更多元。但在TPU生态，尤其是Torch/XLA相关的部分，很多问题仍然没有完全解决，尤其是在复杂系统问题的自动化处理方面，仍然需要大量人工介入。例如我们当时也讨论过，是否可以构建一个专门的benchmark，用来测试模型在这类复杂系统问题中的泛化能力，因为这些问题往往既类似已有经验，又存在关键差异，对推理能力要求很高。但现实情况是，目前即使是比较先进的coding agent，在处理这类问题时仍然容易出现错误判断，比如给出在当前环境中并不存在的解决方案。因此在TPU相关开发中，人工参与仍然是不可替代的。

ZP：除了基础设施层面的挑战，我们也想进一步了解你在NYU期间的研究工作。能否从整体上梳理一下，从早期工作到后续unified model探索，这一系列研究是如何逐步展开的？

童晟邦：整体来看，我的研究路径是一个逐步从“理解问题”到“构建统一范式”的过程。最早的一项工作，是在多模态模型刚开始出现的时候。当时类似GPT-4V还没有完全开放，市面上已经有一些具备视觉能力的模型，但实际体验下来，会发现它们在很多看似简单的任务上表现并不好。我当时是以一个比较“初学者”的视角去思考这个问题：为什么这些模型在一些直观任务上会失败？这也促成了我第一阶段的工作，核心是去分析这些模型的问题来源。在这个过程中，我们发现一个关键点：视觉表征（representation）非常重要。即使在大模型时代，如何有效地表示视觉信息，仍然是一个核心问题。

在此基础上，第二阶段的工作开始转向：如果问题在于表征，那么我们如何构建更好的visual representation，以及如何更好地构建多模态模型。这也对应到后续的一些工作，例如围绕理解（understanding）展开的研究。一方面，我们尝试改进视觉表征；另一方面，也在探索如何构建更大规模的多模态模型。在这个阶段，我有一个很明显的感受：相比于之前（大约2022年之前），计算机视觉研究的范式发生了明显变化。过去的研究更像是在一个“封闭环境”中进行，有固定的数据集（如ImageNet）、明确的任务（分类、检测、分割等），问题定义相对清晰。但随着大模型的发展，很多问题变得更加开放。数据不再是固定的，任务边界也变得模糊，整个研究范式开始向“开放世界”（open-ended setting...