type
Post
status
Published
date
Mar 21, 2026
slug
summary
tags
思考
category
技术分享
icon
password
你知道AI领域被引用次数最高的论文是哪篇吗?没错,就是何恺明大佬的ResNet残差连接。它在GitHub上的引用次数已经超过了31万次。你所听过的包括GPT、豆包在内的几乎所有AI大模型都离不开残差连接。然而就在这周,一份来自Kimi团队的论文AttentionNet打算挑战这个使用了整整十年的铁律。OpenAI的联合创始人看完后激动地说,我们可能需要重新思考一些东西。就连马斯克都表示惊叹。而且你可能想不到,这份可能开启深度学习2.0时代的论文的第一作者竟然是一位17岁的高中生。这个故事要从一个看似简单的问题说起:为什么越深的神经网络反而越难训练?
想象一下,你正在建造一座100层的大楼,每一层都要把建筑材料往上运送。传统的做法很简单,每一层都把材料堆上去。第一层的材料经过第二层、第三层一直到100层。这就是残差连接的核心原理。我们来看一下每个符号的具体意思。H_L代表的是第L层的输出,H_{L-1}代表的是第L-1层的输出,F_{L-1}代表的是第L-1层的加工函数。大白话就是,每一层楼把楼下传上来的材料,加上自己加工后的新材料,一起传给楼上。听起来很合理,但这个加法法则隐藏着两个致命缺陷。
第一个问题,原始材料被淹没。想象你在做一锅汤,第一勺放了盐,第二勺放了酱油,第三勺放了醋,到第100勺时,第一勺的盐味还剩多少?几乎尝不出来了。神经网络也是一样,第一层提取的原始特征传到第100层时,被中间的99层的信息层层覆盖,几乎消失殆尽。
第二个问题,越往后声音越大。为了让自己的贡献不被淹没,深层的网络只能大喊大叫,输出越来越大的数字。这就像一场会议中,后面的发言人为了不被前面的声音盖过,只能越说越大声。最后的后果是整个会场都失控了,训练变得极不稳定。这两个问题困扰了AI研究者整整十年。
转机来自一个天才般的类比。研究者发现,神经网络在深度上的信息传递和RNN在时间上的信息传递惊人的相似。RNN是什么?它是一种处理序列的模型,比如翻译一句话,RNN一个一个词地读,把前面所有词的信息压缩到一个状态里,传给下一个时刻。这听起来是不是很像残差连接?每一层把前面的所有层的信息压缩到一个状态,传递给下一层。那Transformer是怎么解决RNN的问题呢?答案是注意力机制。Transformer不再把信息压缩到一个状态,而是让每个位置都能直接看到前面所有位置,并根据重要性分配权重。那问题来了,既然注意力机制在时间维度上成功了,为什么不在深度维度上也试一次?这就是论文的核心思想:把注意力机制从序列维度搬到深度维度。论文的作者之一杜宇伦老师说得很形象,把注意力旋转90度。于是AttentionNet就诞生了。
让我们看看新机制是怎样工作的。传统的残差连接的公式如下。我们用图书馆的例子来理解。假设你在写论文需要查阅资料,你只能看前一读者留下的笔记。如果前面有100个人,你只能看到最后一个人的笔记,而无法直接查阅前99个人的原始记录。而新方法则是,你拿到了一个研究问题,从图书馆的100篇文献里面计算自己的问题与每篇文献的相关性,再用softmax把相关性转化成概率分布,最后相关性高的文献就引用的多,相关性低的就引用的少。因此,新的注意力残差公式如下。接下来让我逐个符号解释。i从0到L-1代表之前所有的层,V_i是第i层的输出,α_{i到L}是从第i层到第L层的注意力权重。这些权重不是固定的,而是学出来的。我们来看权重是怎么算的。Q_L = W_L,第L层的查询向量,这是一个可学习的参数,代表这一层想找什么信息。K_i = V_i,第i层的键向量,代表了第i层的输出,这一层有什么信息。举个例子,假设第50层在计算,它需要参考之前的信息。传统的方法只能看第49层的输出,而新方法可以同时看第0层到第49层共50个来源。可能发现第二层的特征特别相关,那就给它0.8的权重,第十层可能也有些用给0.1的权重,第49层给0.1的权重。这样第二层的重要信息就不会被中间的47层所稀释。
但问题来了,如果模型有100层,那每一层都要看前面的所有层,计算量会爆炸。怎么办?研究者想出一个巧妙的办法:分块策略。想象一下,你现在要管理一家1000人的公司。假设是全量注意力,那CEO要了解每一个员工的工作,这需要记住1000个人的信息,太累了。如果采取分块策略,那就是把公司分成8个部门,每个部门125人。在部门内部,员工之间简单协作;在部门之间,CEO只需要关注8个部门经理的汇报。数学上这就是Block Attention,把L层分成N个块,每个块就有S = L / N层。块内的各层依然用传统的加法。这里大B_N是第N个块的层索引集合,小b_n是第N个块的代表。之前的做法是看每一个层,而现在呢是看每一个块。这里小b_0与H_1相同,都是Token Embedding。第二部分是之前所有块的代表。第三部分是当前块的部分和。效果如何呢?实验发现,即便模型有上百层,只要分成大约8个块,就能获得几乎全部的性能提升。复杂度从O(L²)降到了O(N²)。100层的全量注意力就需要100乘以100,也就是1万次的计算,而8个块只需要8乘8等于64次的计算。代价是什么?推理的延迟增加不到2%。用2%的代价换一个更聪明的生成网络,值不值?数据给出了答案。
研究团队在Kimi的Linear架构上进行了一次全面的测试。这是一个48B参数的大模型,总参数480亿,激活的参数是30亿。在多步推理的任务上,它的提升特别明显。像GPQA这种极难的研究生级别问答任务,分数直接涨了7.5分。像MATH的数学推理提升了3.6分。代码生成任务HumanEval也涨了3.1分。在知识类的任务上,同样表现稳健。MMLU的知识理解提升了1.1分,QA提升了1.9分。尤其是多步推理这块大幅提升,证明了改进后的深度信息流真的让模型更会思考了。
最后,这篇论文真正的价值在于它尝试挑战统治深度学习十年的残差方式。正如作者所说,这篇论文启发我们应当重新思考之前的一切。如果说过去十年是深度学习1.0,靠算力、数据和深度堆砌性能,那它打开的很可能就是深度学习2.0的大门,从无脑叠加转向更高效、更可控的深度信息流。放到行业视角,这也恰好体现出中美AI的路线差异。美国主攻底层理论架构革新,试图从根本上重构模型;国内更侧重工程落地、场景效率,快速补齐应用生态。没有绝对优劣,但下一代AI的胜负手,一定是理论创新加工程落地的结合。AI行业没有永恒的铁律,只有不断被推翻的理所当然。
欢迎您在底部评论区留言,一起交流~
- Author:zijiantianjiang
- URL:http://preview.tangly1024.com/article/32a3223f-da74-8006-a826-eb452f923e73
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!





