Transformer | 标签

首页

资讯

往期整理

AI模仿人脑注意力：ChatGPT官方中文版深度解析

深入剖析AI模仿人类大脑注意力的核心技术Transformer与注意力机制，解读ChatGPT等模型如何实现高效信息处理，了解ChatGPT官方中文版及国内使用方法。

192亿的“烫手山芋”：谷歌为何既爱又恨Transformer之父？

谷歌斥巨资192亿迎回Transformer核心作者Noam Shazzer，却因其内部争议言论陷入两难。本文深入剖析谷歌的人才策略、企业文化与言论自由的冲突，探讨AI巨头的价值观困境。

揭秘Transformer注意力汇聚：从Attention Sink到模型优化

深度解析Transformer中的Attention Sink现象，从机制理解到结构化消除，助你掌握大模型优化核心。关注AI资讯门户[aigc.bar](https://aigc.bar)，获取更多AI新闻、LLM大模型、人工智能前沿技术及AI变现指南。

Kimi打破Transformer十年禁区：算力暴涨的AI底层革命 - AI资讯

AI资讯,AI新闻,大模型,LLM,人工智能,Kimi最新突破,Transformer架构升级,Attention Residuals,解决PreNorm稀释,算力提升,AI门户,AGI,chatGPT,claude,AI日报,AI变现。Kimi捅破十年残差连接禁区，实现性能炸裂。

告别LayerNorm！清华刘壮团队Derf助力Transformer无需归一化性能飞跃

清华姚班校友刘壮团队提出全新Derf激活层，成功实现无需归一化的Transformer稳定训练。在视觉、语言及基因组任务中，Derf性能超越传统LayerNorm，展现出更强的泛化能力。AI资讯,大模型,LLM,深度学习,人工智能。

马斯克开源X推荐算法：揭秘Grok同款Transformer核心架构

马斯克正式开源X平台推荐算法，核心采用与xAI Grok模型相同的Transformer架构。本文深入解析Thunder与Phoenix组件、双塔模型机制以及基于Grok的流量排序逻辑，Grok,Transformer,推荐算法,马斯克,开源

DeepSeek mHC复现：8张H100揭秘万倍信号爆炸与架构救赎

DeepSeek mHC, Taylor Kolasinski, 信号爆炸, 残差连接, Transformer架构, 大模型训练, AI新闻, LLM, AGI, 深度学习, 1.7B参数, Sinkhorn算法

告别RoPE？Transformer作者推DroPE：零样本扩展长文本新范式 | AI资讯

深度解读Sakana AI新算法DroPE，Transformer作者团队革新大模型预训练，抛弃RoPE实现零样本长文本扩展，仅需1%预算即可校准，AGI与LLM技术迎来新突破。

日本AI新王Sakana AI：估值破纪录，Transformer之父另辟蹊径，挑战OpenAI霸权

深入解读日本AI独角兽Sakana AI，由Transformer论文作者Llion Jones创办，获英伟达投资。剖析其自然启发模型、AI科学家项目及高估值背后逻辑，探索全球AI新闻与发展趋势。

Transformer作者预言：AI无寒冬，推理革命开启万亿新纪元

深入解读Transformer作者Łukasz Kaiser最新观点，AI无寒冬，推理模型革命已来，算力与能源成关键，万亿市场即将引爆，探索未来AI发展新范式。

谷歌Hope模型登场：嵌套学习能否终结AI灾难性遗忘？

深入解读谷歌全新「嵌套学习」范式与Hope模型，该AI架构旨在解决大模型的「灾难性遗忘」难题，在实验中超越Transformer，或将开启AI自我改进的新纪元。

Translution深度解析：超越Transformer的下一代AI架构

深入解读浙大新作Translution，一种统一卷积与自注意力的颠覆性AI架构。探讨其如何解决Transformer瓶颈，实现更强性能，引领AGI和大模型发展新方向。

Transformer之父警告：AI创新已死，大模型内卷何时休？

Transformer架构共同作者Llion Jones警告，AI大模型领域因过度“利用”而陷入创新停滞。他呼吁行业回归探索精神，为真正的人工智能（AGI）寻找新架构。

Meta颠覆性突破：Free Transformer让AI学会「三思而后行」

Meta发布Free Transformer，通过引入随机潜在变量，赋予大模型「显式思考」能力，显著提升代码生成、数学推理等任务性能，颠覆传统Transformer架构。

Mamba-3深度解析：AI大模型新霸主挑战Transformer霸权

Mamba-3深度解析，凭借梯形法则、复数状态与MIMO三大创新，挑战Transformer在长序列处理领域的霸权，引领AI大模型新纪元，最新AI资讯解读。

FDAM颠覆ViT：电路理论破解视觉模糊，让AI重获高清细节

深入解读FDAM，一种源自电路理论的即插即用模块，通过频率动态注意力调制解决视觉Transformer的细节丢失问题，大幅提升AI模型在密集预测任务上的性能，重获高清视觉。

塑造GPT-5的幕后巨擘：Transformer之父Lukasz的AGI远征

深入解读Transformer八子之一Lukasz Kaiser的职业轨迹，从奠基性论文《Attention Is All You Need》到主导OpenAI的GPT-5研发，揭示其对AGI的第一性思考与未来展望。

Transformer之父炮轰OpenAI：AI的未来在开源，DeepSeek模式才是出路

Transformer作者Ashish Vaswani认为OpenAI已迷失方向，公开表示要成为西方DeepSeek，推动真正开源AI研究，探索AI技术突破与商业化的新路径。

27M模型碾压Claude！00后天才王冠挑战Transformer | AI资讯 | AIGC.bar

27M参数HRM模型在ARC-AGI等测试中超越o3-mini与Claude，其仿脑分层推理架构由拒绝马斯克的00后天才王冠打造，或成Transformer的颠覆者。最新AI资讯尽在AIGC.bar。

谷歌MoR架构详解：2倍推理提速，Transformer杀手真的来了吗？

谷歌DeepMind发布MoR新架构，通过动态递归与参数共享，实现2倍推理提速与更低内存占用。本文深入解读其核心机制、性能优势，探讨其能否成为下一代大模型（LLM）的基础。

←上页下页→