姚顺宇:从物理到AI,“小疯”背后的深度思考
type
status
date
slug
summary
tags
category
icon
password
网址

姚顺宇戴了一副茶色眼镜走过来,这副眼镜会随光线变化而改变颜色。
硅谷AI业界有两位Yao Shunyu,他们曾是清华同一届毕业生,这让姚顺雨与姚顺宇时常成为话题人物。
前一位姚顺雨2025年从OpenAI跳槽到腾讯,他去年来过我们节目;后一位姚顺宇也于同年跳槽,从Anthropic来到Google DeepMind。
这位姚顺宇毕业于清华和斯坦福大学,曾经的研究方向是理论物理——非厄米系统、量子物理与高能物理。他的人生奋斗姿态是——“总想挑战一些自己不太会的事”。
他人生最大的一次跨步是博士毕业,毅然决然离开深造9年的物理,来到崭新的AI行业。过去两年,他先后在Anthropic和Google DeepMind出任研究科学家,参与了Claude 3.7、4.5、Gemini 3等关键模型的开发过程。
姚顺宇一点也不nerd。有时,他会令你猝不及防,突然发表一点“小疯”言论。
第一次见面,他就对我说:“我在这个行业又没有什么导师,又没有什么旧友,我当然想喷谁喷谁。”
转行AI的两年,他变得越来越直接,越来越不害怕得罪人。访谈中,他也说了一些直白言论:
• “AI个人英雄主义时代已经过去了,所以也没有什么英雄,有时候甚至觉得旧时代英雄有点蠢。”
• “没有哪个老登是你的亲属,所以你觉得他傻,他就是傻,就可以直接说他傻。无所谓的啊。(笑)”
• “现在大家都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。”
• “AI这个事,本来也不太需要脑子——真的不太需要脑子——我觉得都是一些本科生就能干的活。这个行业最重要的特质,就是靠谱,就是做事细,对自己做的事情负责任。”
• “你不用太担心因为自己的观点而惹到什么人。只要你的观点是自洽的,不是说随便喷人,你是有一套自己的理解。最终你在这个领域做的怎样,是有客观评价标准的——大家是会尊重你的。”
不过,不要误会他是一个不谦虚的人。在描述自己的研究时,姚顺宇显得异常审慎。
他对于这些工作的描述是:“我自己对那个事没那么重要,更多的是,我很幸运,有机会在那个时候加入了一个重要的项目,做了一些事。”
他反复强调,AI个人英雄主义的时代已经过去了,现在都是集体主义的故事,要对神话个体的一切叙事充满警惕。
我们的节目录制于2026年3月,距离我们这次节目录制完,世界又发生了许多意想不到的变化:Meta对Manus的收购被撤销、Cursor可能被SpaceX收购、xAI将终止独立运营并入SpaceX,并更名为SpaceXAI等等。如果我们的谈话内容有一定滞后性,请大家多包涵——AI的世界实在变化太快、太出乎意料了。
可能还要特别说明的一点是,技术细节会涉及企业机密,有一些嘉宾是不方便分享的,也请大家能够包容。
在访谈中,我们尽最大可能和大家一起学习AI。你会收获姚顺宇在Anthroic和Google Gemini的技术探索历程与思考洞察。
而对于那些离经叛道的微小片刻,还请允许我们小疯一下。
友情提示:文字内容大约只占完整内容的1/3,如果要获得完整版,请观看我们的视频播客或收听播客,你一定会收获更多惊喜!
完整的播客将于小宇宙、苹果Podcast等全音频平台播出;播客视频将于Bilibili、小红书、视频号等全视频平台播出。
以下是我们的访谈节选。
“他回去之后,我们也经常打电话”
张小珺:AI业界不是有两个姚顺宇/雨吗?你要不要先给大家介绍一下你自己,并且给大家科普一下两个姚顺宇/雨的区别?
姚顺宇:我叫姚顺宇,显然也有一个跟我几乎同名的朋友(姚顺雨,腾讯首席AI科学家,前OpenAI研究员)。我们俩主要履历也有一些overlap(重叠),看起来非常难以区分。
我以前是做学物理的,本科在清华,那时做凝态理论,后来去斯坦福做理论高能物理。离开斯坦福之后去伯克利,短暂待了两个星期的postdoc博后,就离职了,去了Anthropic。在Anthropic待了一年,去年9月底、10月初加入了Gemini。
如果大家非要区分,最大区分就是,那个顺雨,一开始一直是做CS,计算机相关;我从某种意义上是半道出家,之前做理论物理为主。
张小珺:你们是不是好朋友?好像大学就认识,而且是一级的。他是一个什么样的人?你是一个什么样的人?
姚顺宇:我们本科就认识,因为我们本科在清华是一级的。他一开始就学计算机,在姚班,计算机科学实验班;我学物理,在机科班。后来他去了普林,我去了斯坦福。
这也是另一个有点令人费解的点。在普世世界,觉得斯坦福应该是学计算机的人该去的地方,普林斯顿是学物理的人该去的地方。但我俩正好反过来。哈哈。也可能产生了一些费解的事。
我俩还真的挺不一样。他是一个比我有趣的多的人,我从他身上能学习到一些和我很不一样的点。比如在AI方面,他花了很多时间思考人和AI的交互、一些产品的事。对我来说,是一个很不一样的朋友,我也从他那学到很多。
张小珺:你们之前在硅谷多久见一次面?你们现在是不是还频繁打电话?有多频繁?
姚顺宇:我们在硅谷见面确实挺频繁的,每几个星期吧。但好像见面是为了凑一块玩。哈哈哈。
真的就是纯玩。可能出去散散步,扯扯有的没的。有时候吃个饭,打个牌啊之类的。哈哈,他回去之后,我们也经常打电话。
张小珺:最近一次电话聊啥了?好像就是前一两个星期。
姚顺宇:啊,你怎么知道的?(狐疑脸)
可能会过几个月,catch up一下大家的近况吧。
张小珺:他是不是多次想把你拉过去?
姚顺宇:可能有这个意思吧(笑)。但是,我觉得不关键。哈哈哈。
多半是我自己的原因。去年八九月我离开Anthropic,决定要去哪,最大动机是我想学一些不一样的东西。对我来说,我没有更着重去考虑领导一个项目。我更多是,想优先去学习一些东西,我选择去了Gemini。
“为什么要把自己的时间浪费在伺候老登身上?”
张小珺:你本科读量子物理、博士读了高能物理,物理对你的帮助是什么?
(此处省略了姚顺宇在物理上的科研探索,完整内容请大家看视频播客或者听播客:)
姚顺宇:本科读物理最大的帮助是:第一,想问题要想清楚。读书不在于读的多,而在于读的深。读的多,不代表你能发现新东西。但如果你对一件事有和别人不一样的见解,那才是对社会来说更有价值的事。
另一件事是,别太相信纯理论。因为当时能做数值,是因为数值和理论对不上,才仔细研究那个问题。
博士去读了高能物理,这就回到了说——总爱挑战很难的事,有时候也会带来一些不好的结果。我感觉,我这个博士对自己学到很多东西、成长很大;但于这个世界,没有产生什么贡献。哈哈。
高能理论这个方向,足够难,非常非常难。但它不好的在于,不是特别可以验证,没有什么客观评价标准。因为高能理论已经发展到了实验完全追不上的阶段。
张小珺:那这个学科是怎么进步的?如果不是实验,它的进步依赖于什么?
姚顺宇:一个进步来源,来自于数学的自洽性。
比如,你提出一个框架来描述这些事,那你能和现有的已被验证的更低能标下的理论相自洽。比如说研究弦论,自然大家问题就是,弦论能不能在低能情况下回到量子场论,进而回到经典物理。
这个自洽性是一个判定方法,是很合理、科学的。当然也有一些不科学的因素,当这个领域完全没有实验、没有客观标准,肯定不会只有一个自洽框架出现。
这时候谁做的好、谁做的不好,就依赖于领域内一些老登的主观判断。
张小珺:你是被谁伤害了是吗?(笑)
姚顺宇:我也没有被谁伤害,只是在那个领域待时间越长,就越觉得这件事蠢——人这一辈子也没多长,为什么要把自己的时间浪费在伺候老登身上?
张小珺:所以是花了5年学习了很多知识,买了一个大教训。这个教训是——要做实验?
姚顺宇:要做有比较客观评价标准的事,要做对这个世界能够产生影响的事。
张小珺:你本科是比较顺利的,在量子物理这个研究领域,很快就有了非常好的学术成果,而且是范式级的变化。但你迅速觉得没有吸引力了,在博士挑战一个更难的事情。但在博士期间是比较落寞的。
姚顺宇:至少从结果来说是这样的。哈哈哈。
张小珺:外界看不出来,外界看都是非常光鲜的履历。
姚顺宇:对,从实际科研产出来说,没有人会说我博士期间的文章不好,但摸着良心说,对这个世界有多大的影响?我觉得几乎没有——没有影响,几乎为零。
对我自己来说,我自己很不满意的啊。但也没有不满意到,我会担心有人说我在混日子。确实也没在混日子,还是能达到所有外界标准。
张小珺:这是怎么做到的?——所以说,很多事情是冷暖自知对吧。
姚顺宇:达到外界的标准,或者达到一个小的圈子的评价标准,像训练模型一样。一旦有了这么一个小的圈子,你知道他们的评价标准之后,做得好是很容易的。哪怕不认可这个标准,你是可以达到的。
张小珺:有时候哪怕内心不认可,也可以蒙蔽自己继续往前走。
姚顺宇:但我后来发现我蒙蔽不了自己,骗不了自己。
博士最后两年,就会有这样的感觉。但那时确实也没想清楚,如果不做这个该去做什么?
比如说,一开始更多是去了解量子计算或者量子信息。拿了postdoc offer之后,感觉更紧急。在学校,还可以一个学生的心态。离开学校之后就是自己的career(事业),得给自己找一条路。
当时觉得,量子计算和AI是两条给小登机会比较多的路。
博士后,我到伯克利待了两三个月,官方说就只待了两个星期——我入职之前已经去那了,反正就在湾区嘛。但入职之后,只待了两个星期就辞职了。
我本来不准备入职,但伯克利人就是太好,说:没事,等事情定了再说,能来多久就得来多久。
张小珺:你告诉他们你在跟Anthropic谈?
姚顺宇:我告诉他们我可能会去做AI了,要不就别入职了。
不止伯克利,湾区这两个学校的老师都人很好,很照顾你。觉得你还没有完全谈定,还是先把工作拿着。
张小珺:物理对你后来做AI有什么帮助吗?
姚顺宇:硬实力上没什么帮助。纯工具性的技能上来说,从物理到AI的转化,是非常非常少的。但非要问的话,可能是性格吧。
做物理的人会更想刨根问底,更想理解一个事儿,更想做事很系统。因为习惯了这种很系统性的,不管是做实验的方式,还是做理论的方式。但这也不是做物理人独特的。
为什么做计算机的人没有这个特性呢?我认识很多做计算机的人,也有这个特性。很多学化学的人也有,学生物的人也有。所以不觉得它是做物理独特的。
但事实上,语言模型这种比较large scale(大规模)的AI,确实有很多物理出身的人,做的很成功。尤其Anthropic这个公司。
“智能涌现,这个话本身就不太科学”
张小珺:很多人在描述这一代AI的时候,会说是黑盒,你能用科学的角度来理解一下这个黑盒吗?
姚顺宇:这世界上所有东西都是黑盒。
哪怕像物理这种。不管是量子力学,还是量子场论,都是描述那个能标下的行为。本质上这个系统还是一个黑盒,你还是不知道它最微观的地方是什么样的动力学。
AI也是一样,黑盒不黑盒,都是相对的。我们对语言模型的理解,确实没到神经科学手术刀那个级别——不是说能理解到,这个行为是由哪一个neuron、哪一个人工神经元的哪一个激发产生的。没有到这个层面。
除非在一些很稀疏、很小的网络里,像Anthropic那个Interpretability(可解释性)团队,可能会做一些类似的工作。但在实际能用的语言模型里,都没达到这样的理解。
但也不代表完全没理解。比如Scaling Law,它就描述了那个尺度下,模型随着大小和数据量,是怎么在perplexity(困惑度)这个指标下变得越来越好的。
所以是完全没理解吗?如果Scaling Law不算是理解的一小部分,那是不是我们也说,对这个世界也完全不理解?这个世界也是一个完全黑盒。
张小珺:所以Scaling Law是一种科学规律?
姚顺宇:它是一种经验规律。但经验规律和科学规律之间的界限很模糊。
热力学那些定律——第一定律、第二定律、克拉伯龙方程——当年被发现的时候,也都是经验规律。后来随着时间发展,慢慢知道了微观机制,就变成了科学规律。
Scaling Law目前肯定还是很经验,但未来当技术变得比较固定,大家越来越多理解它微观过程的时候,会不会变成科学规律?如果这个定义存在的话,是有可能的。
张小珺:能不能用科学的表达来解释一下,“智能涌现”?
姚顺宇:这个话本身就不太科学,自然也没法用科学的话来表达一个不科学的事。
智能涌现,对我来说,它更多是一种主观的感觉,而不是客观现象。
很多人说智能涌现的时候,脑子里想的是,以前的语言模型只能做某一个方向的事,比如只能翻译、只能做分析。但现在模型好像,哎,可以做所有的事了。
但这个事,对我来说更多是一个技术上的涌现,而不是行为上的涌现。是我们通过研究,发现了该怎么去做这种大规模的训练,能够水平的提升所有能力。这才是更本质的事。
至于智能涌现,每个人心里的定义都不太一样。
张小珺:你的定义是?
姚顺宇:对我来说就是没定义。
唯一质的区别就是,有没有发生一个技术上的改变,使得我们可以做scale up,可以水平的提升所有的能力。这对我来说,是一个良好定义的事。
张小珺:你最后是在量子计算和AI之间选择了AI,这是怎么发生的?量子计算好像离你的研究主线更近一些?
姚顺宇:好处是他们都给年轻人机会。
这就是为什么要去了解细节。了解之后发现不是,是反过来的。量子计算的主要瓶颈在实验上。不是怎么设计算法或者算子,更多是怎么在实验上实现它。那个事反而是我不擅长,和我过去很多有兴趣的事比较不相关。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)