DeepMind暴力搜出下一代激活函数:AlphaEvolve深度解读
type
status
date
slug
summary
tags
category
icon
password
网址

引言:从人类直觉到AI自主进化的跨越
在深度学习的演进史上,激活函数一直被视为神经网络的“灵魂”。从最初的 Sigmoid 到统治业界的 ReLU,再到如今大模型标配的 GELU,每一次微小的函数改进都带来了模型性能的飞跃。然而,这些经典的激活函数大多源于数学家的直觉或有限的参数搜索。
近日,谷歌 DeepMind 发布了一项颠覆性的研究,展示了如何像“挖矿”一样,利用算力在无限的代码空间中暴力搜寻性能更强的激活函数。通过名为 AlphaEvolve 的进化算法,DeepMind 不仅重新发现了 GELU,还挖掘出了一系列具有强大泛化能力的全新函数,如 GELUSine。这一突破不仅预示着 AI 架构设计进入了“AI 设计 AI”的新阶段,也为广大开发者提供了优化模型的新思路。更多前沿 AI资讯 和 AI新闻,欢迎访问 AI门户。
AlphaEvolve:以代码为媒介的进化编码系统
传统的神经架构搜索(NAS)通常在预定义的数学算子集合中进行排列组合,这种方法虽然有效,但上限被锁死在人类定义的规则内。DeepMind 此次推出的 AlphaEvolve 则彻底打破了这一桎梏。
AlphaEvolve 的核心思想是将大模型(LLM)作为“变异算子”。它不再是简单地调整参数,而是直接编写 Python 代码。搜索空间变成了所有可能的 Python 函数组合,只要符合计算预算且张量形状一致,任何代码逻辑都能成为候选激活函数。
这种方法的精妙之处在于,LLM 在生成代码的同时,还会像人类程序员一样在注释中写下“设计思路”。这种带有逻辑引导的进化过程,使得搜索效率远超传统的随机变异,让机器能够利用 LLM 中蕴含的数学直觉去探索那些人类未曾设想的函数形态。
微型实验室:用合成数据攻克 OOD 泛化难题
为了避免在 ImageNet 等大型数据集上进行昂贵的算力消耗,DeepMind 构建了一个“微型实验室”。他们并没有追求在训练集上的极致拟合,而是将核心目标定位于 分布外泛化(OOD Generalization)。
研究团队设计了一系列合成回归任务,包括随机多项式、球谐函数和费曼符号回归数据集。实验的关键设定在于“训练域”与“测试域”的偏移——模型必须在未见过的数值区间内表现良好。
这种策略背后的逻辑是:如果一个激活函数能在极端简化的 OOD 任务中生存下来,它就一定捕捉到了某种本质的归纳偏置。这种“小数据、大智慧”的方法,为 人工智能 底层组件的开发提供了一个高效且严谨的验证框架。
挖掘出的宝藏:GELUSine 与周期性扰动的魔力
在 AlphaEvolve 挖掘出的众多函数中,最令人瞩目的莫过于以 GELUSine 为代表的“周期性扰动”系列。研究发现,表现最优的函数往往呈现出一种特定的结构:一个基础激活函数(如 GELU)加上一个微小的正弦波或 Sinc 函数扰动。
- GELUSine:通过引入正弦项,在优化过程中制造微小的“摆动”,帮助模型逃离局部极小值。
- GELU-Sinc-Perturbation:在原点附近引入受控的非线性复杂度,同时保持了良好的渐近特性。
为什么这些看起来“奇异”的函数会有效?DeepMind 的解释是:传统的线性或分段线性函数在处理复杂结构时容易陷入单调。而周期性函数的引入,相当于为神经网络提供了一种“隐式的频率分析”工具,使其在处理算法推理(如 CLRS-30 基准测试)时,具备更强的逻辑推演能力。
实验结果:在真实世界任务中的卓越表现
这些在“实验室”里搜出来的函数,在真实的大模型和视觉任务中表现如何?实验数据给出了肯定的答案:
- 算法推理:在 CLRS-30 任务上,GELU-Sinc-Perturbation 的得分高达 0.887,显著优于 ReLU 和 GELU。
- 计算机视觉:在 ImageNet 测试中,GELUSine 帮助 ResNet-50 达到了约 74.5% 的 Top-1 准确率,远超 ReLU。
- 鲁棒性验证:研究还揭示了某些“聪明反被聪明误”的函数(如过度依赖 Batch 统计信息的 Turbulent 函数),证明了逐点激活函数在通用性上的不可替代性。
这些成果再次证明,通过精密的搜索算法和合理的适应度设计,AI 完全有能力优化自身的底层算子。对于追求极致性能的开发者来说,尝试将
nn.ReLU 替换为这些新发现的函数,或许就是提升模型竞争力的关键。结论:AI 自主设计的未来已来
DeepMind 的这项研究不仅是技术上的胜利,更是方法论的革新。它告诉我们,神经网络的每一个组件——哪怕是细微如激活函数——都存在着巨大的优化空间。随着 LLM 和 AGI 技术的持续演进,未来的 AI 开发可能不再是手动调参,而是为 AI 搭建一个高效的进化环境,让它自我迭代、自我进化。
在这个快速变化的时代,保持对前沿技术的敏锐洞察至关重要。如果你想获取更多关于 提示词 优化、AI变现 或最新的 AI日报,请持续关注 AIGC.bar,我们为你提供最深度的人工智能行业解析。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)