颠覆10年共识！马斯克叹服！Kimi：AttnRes【论文精读】

type

Post

status

Published

date

Mar 21, 2026

slug

summary

category

技术分享

icon

password

你知道AI领域被引用次数最高的论文是哪篇吗？没错，就是何恺明大佬的ResNet残差连接。它在GitHub上的引用次数已经超过了31万次。你所听过的包括GPT、豆包在内的几乎所有AI大模型都离不开残差连接。然而就在这周，一份来自Kimi团队的论文AttentionNet打算挑战这个使用了整整十年的铁律。OpenAI的联合创始人看完后激动地说，我们可能需要重新思考一些东西。就连马斯克都表示惊叹。而且你可能想不到，这份可能开启深度学习2.0时代的论文的第一作者竟然是一位17岁的高中生。这个故事要从一个看似简单的问题说起：为什么越深的神经网络反而越难训练？

想象一下，你正在建造一座100层的大楼，每一层都要把建筑材料往上运送。传统的做法很简单，每一层都把材料堆上去。第一层的材料经过第二层、第三层一直到100层。这就是残差连接的核心原理。我们来看一下每个符号的具体意思。H_L代表的是第L层的输出，H_{L-1}代表的是第L-1层的输出，F_{L-1}代表的是第L-1层的加工函数。大白话就是，每一层楼把楼下传上来的材料，加上自己加工后的新材料，一起传给楼上。听起来很合理，但这个加法法则隐藏着两个致命缺陷。

第一个问题，原始材料被淹没。想象你在做一锅汤，第一勺放了盐，第二勺放了酱油，第三勺放了醋，到第100勺时，第一勺的盐味还剩多少？几乎尝不出来了。神经网络也是一样，第一层提取的原始特征传到第100层时，被中间的99层的信息层层覆盖，几乎消失殆尽。

第二个问题，越往后声音越大。为了让自己的贡献不被淹没，深层的网络只能大喊大叫，输出越来越大的数字。这就像一场会议中，后面的发言人为了不被前面的声音盖过，只能越说越大声。最后的后果是整个会场都失控了，训练变得极不稳定。这两个问题困扰了AI研究者整整十年。

转机来自一个天才般的类比。研究者发现，神经网络在深度上的信息传递和RNN在时间上的信息传递惊人的相似。RNN是什么？它是一种处理序列的模型，比如翻译一句话，RNN一个一个词地读，把前面所有词的信息压缩到一个状态里，传给下一个时刻。这听起来是不是很像残差连接？每一层把前面的所有层的信息压缩到一个状态，传递给下一层。那Transformer是怎么解决RNN的问题呢？答案是注意力机制。Transformer不再把信息压缩到一个状态，而是让每个位置都能直接看到前面所有位置，并根据重要性分配权重。那问题来了，既然注意力机制在时间维度上成功了，为什么不在深度维度上也试一次？这就是论文的核心思想：把注意力机制从序列维度搬到深度维度。论文的作者之一杜宇伦老师说得很形象，把注意力旋转90度。于是AttentionNet就诞生了。

让我们看看新机制是怎样工作的。传统的残差连接的公式如下。我们用图书馆的例子来理解。假设你在写论文需要查阅资料，你只能看前一读者留下的笔记。如果前面有100个人，你只能看到最后一个人的笔记，而无法直接查阅前99个人的原始记录。而新方法则是，你拿到了一个研究问题，从图书馆的100篇文献里面计算自己的问题与每篇文献的相关性，再用softmax把相关性转化成概率分布，最后相关性高的文献就引用的多，相关性低的就引用的少。因此，新的注意力残差公式如下。接下来让我逐个符号解释。i从0到L-1代表之前所有的层，V_i是第i层的输出，α_{i到L}是从第i层到第L层的注意力权重。这些权重不是固定的，而是学出来的。我们来看权重是怎么算的。Q_L = W_L，第L层的查询向量，这是一个可学习的参数，代表这一层想找什么信息。K_i = V_i，第i层的键向量，代表了第i层的输出，这一层有什么信息。举个例子，假设第50层在计算，它需要参考之前的信息。传统的方法只能看第49层的输出，而新方法可以同时看第0层到第49层共50个来源。可能发现第二层的特征特别相关，那就给它0.8的权重，第十层可能也有些用给0.1的权重，第49层给0.1的权重。这样第二层的重要信息就不会被中间的47层所稀释。

但问题来了，如果模型有100层，那每一层都要看前面的所有层，计算量会爆炸。怎么办？研究者想出一个巧妙的办法：分块策略。想象一下，你现在要管理一家1000人的公司。假设是全量注意力，那CEO要了解每一个员工的工作，这需要记住1000个人的信息，太累了。如果采取分块策略，那就是把公司分成8个部门，每个部门125人。在部门内部，员工之间简单协作；在部门之间，CEO只需要关注8个部门经理的汇报。数学上这就是Block Attention，把L层分成N个块，每个块就有S = L / N层。块内的各层依然用传统的加法。这里大B_N是第N个块的层索引集合，小b_n是第N个块的代表。之前的做法是看每一个层，而现在呢是看每一个块。这里小b_0与H_1相同，都是Token Embedding。第二部分是之前所有块的代表。第三部分是当前块的部分和。效果如何呢？实验发现，即便模型有上百层，只要分成大约8个块，就能获得几乎全部的性能提升。复杂度从O(L²)降到了O(N²)。100层的全量注意力就需要100乘以100，也就是1万次的计算，而8个块只需要8乘8等于64次的计算。代价是什么？推理的延迟增加不到2%。用2%的代价换一个更聪明的生成网络，值不值？数据给出了答案。

研究团队在Kimi的Linear架构上进行了一次全面的测试。这是一个48B参数的大模型，总参数480亿，激活的参数是30亿。在多步推理的任务上，它的提升特别明显。像GPQA这种极难的研究生级别问答任务，分数直接涨了7.5分。像MATH的数学推理提升了3.6分。代码生成任务HumanEval也涨了3.1分。在知识类的任务上，同样表现稳健。MMLU的知识理解提升了1.1分，QA提升了1.9分。尤其是多步推理这块大幅提升，证明了改进后的深度信息流真的让模型更会思考了。

最后，这篇论文真正的价值在于它尝试挑战统治深度学习十年的残差方式。正如作者所说，这篇论文启发我们应当重新思考之前的一切。如果说过去十年是深度学习1.0，靠算力、数据和深度堆砌性能，那它打开的很可能就是深度学习2.0的大门，从无脑叠加转向更高效、更可控的深度信息流。放到行业视角，这也恰好体现出中美AI的路线差异。美国主攻底层理论架构革新，试图从根本上重构模型；国内更侧重工程落地、场景效率，快速补齐应用生态。没有绝对优劣，但下一代AI的胜负手，一定是理论创新加工程落地的结合。AI行业没有永恒的铁律，只有不断被推翻的理所当然。

💡

欢迎您在底部评论区留言，一起交流~