深度学习进阶（十四）ConvNeXt

道易吉祥 發表於 2026-4-30 16:44:00

在之前的内容里，我们展开了 CNN 的一些演进，知道 CNN 本身也在不断发展。 
现在我们再绕回 Transformer ：在 21 年 Swin Transformer发表后，以它为代表的诸多 ViT 工作，已经在多个视觉任务上全面超越传统 CNN。
这带来了一个非常现实的思考：
<blockquote>
就像珍妮机淘汰手工纺织一样，ViT 会不会将 CNN 扫入历史？
</blockquote>
要对这个问题下初步结论，还需要简单回顾一下之前的内容： 
20 年，最初的 Vision Transformer其实只是对图像数据进行了序列化处理后输入 Transformer ，因此这也带来了需要超大数据量和超高计算量的问题，虽然实现了 SOTA ，但没有较高的可用性。
所以，Data-efficient Image Transformer提出通过蒸馏，以教师模型的输出监督训练，从而缓解 ViT 的数据依赖问题。有趣的是，这里的教师模型就是训练好的强大 CNN，因此，DeiT 虽然提高了可用性，但却并不“独立”。
于是，Swin Transformer不再追求引入外部的归纳配置，而是通过自身结构的改进来重建偏置，从而成为 ViT 的核心代表。不过，由于它的改进点太像 CNN 里的卷积和池化逻辑，因此也常被称为“Transformer 版的 CNN”。
到这里，就到了思维上的关键点：
<blockquote>
图像数据本身的先验都是相同的，无论是卷积池化，还是 windows attention 和 patch merging ，其实都是根据局部性、平移不变性等先验引入的归纳偏置，所以看起来十分相似。
</blockquote>
总结来说一句话：题目都是一样的，就看你的解题方法。 
所以，在 Transformer 大获成功之后，研究者并没有直接放弃 CNN，反而提出了新的想法：
<blockquote>
让 CNN 再借鉴一下 Transformer 的解题思路试试呢？
</blockquote>
这正是论文 ConvNeXt: A ConvNet for the 2020s 的出发点，顾名思义：20 年代的卷积网络。 
我们用对比方式来展开其详细改进，其实每一点都不算复杂：
<h1 id="1-大卷积核和-windows-attention">1. 大卷积核和 windows attention</h1>
在之前的 Swin Transformer 中，一个非常核心的设计是：
<blockquote>
将全局 Attention 限制在局部窗口（window）内计算
</blockquote>
这一设计既降低了计算复杂度，还引入了局部性归纳偏置。
如果说 Swin 把全局 Attention 拆成局部 Attention 是在学“局部”，那 ConvNeXt 的相应设计就是在学“全局”。
传统 CNN 常用的是 \(3\times3\) 卷积核，这带来的问题是感受野增长依赖层数堆叠，同时单层建模能力也较弱。 
所以，ConvNeXt 的改动内容是：
<blockquote>
将卷积核从 \(3\times3\) 扩展到 \(7\times7\) 。
</blockquote>
这一步可以理解为：用“大卷积核”去逼近 window attention 的感受野。
不过要强调的是，虽然感受野的范围更接近了，但两者仍然有本质区别：Attention 使用的是内容相关的动态权重，而普通卷积核虽然在迭代学习，但还是参数固定的静态权重。
<h1 id="2-解耦卷积和-swin-block">2. 解耦卷积和 Swin Block</h1>
同样还是先回顾一下，在 ViT 及其后续结构中，一个清晰的设计范式是：
<blockquote>
空间建模（Attention） + 通道建模（MLP）分开进行。
</blockquote>
而在传统 CNN 中，这两件事是“绑在一起”的：标准卷积同时完成：空间建模 + 通道融合。 
简单展开如下： 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430163716081-1313879314.png" alt="image.png" loading="lazy"> 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430163715161-503554447.png" alt="image.png" loading="lazy">
如图所示，我们对这种耦合问题并不陌生，这种学习负担会让卷积的表达能力不够灵活，从而限制模型上限。
于是，ConvNeXt 引入的相应设计是：
<blockquote>
把一层标准卷积拆成两层：Depthwise Conv + Pointwise Conv，一个只做空间建模，一个只做通道融合。
</blockquote>
需要说明的是，这种思路不是 ConvNeXt 首创的，早在 17 年的论文：Xception: Deep Learning with Depthwise Separable Convolutions中已经提出了这种卷积可以完全解耦的思想。 
而 ConvNeXt 在这里的使用其实是赋予了其与 Transformer 对齐的结构意义。
<table>
<thead>
<tr>
<th>Transformer</th>
<th>ConvNeXt</th>
</tr>
</thead>
<tbody>
<tr>
<td>Attention</td>
<td>Depthwise Conv</td>
</tr>
<tr>
<td>MLP</td>
<td>Pointwise Conv</td>
</tr>
</tbody>
</table>
具体展开如下： 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430164054499-1799401846.png" alt="image.png" loading="lazy"> 
这一改动，可以说是 ConvNeXt 最接近 Transformer 思想的一步。
<h1 id="3-layernorm">3. LayerNorm</h1>
这里同样是在向 Transformer 看齐，传统 CNN 普遍使用的是 Batch Normalization，而 ViT 系列统一使用 Layer Normalization . 
两者都是用来稳定梯度，加速收敛的归一化手段，核心区别在于 BN 的效果依赖 batch 统计量，而 LN 是对单样本归一化。
所以，ConvNeXt 做出的选择是：
<blockquote>
全面用 LayerNorm 替代 BatchNorm。
</blockquote>
并不复杂，就不再展开了。
<h1 id="4-convnext-整体结构">4. ConvNeXt 整体结构</h1>
完成了几大改进点后，就像一个个组件组成 Transformer block 一样，我们也可以得到 ConvNeXt Block 如下: 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430163715085-2138339223.png" alt="image.png" loading="lazy"> 
这种结构我们已经很熟悉了，这里有一点我们没提过，是 GELU（Gaussian Error Linear Unit，高斯误差线性单元）激活函数。
简单展开一下，我们知道最基础的 ReLU 是：
<div class="math display">\[\text{ReLU}(x)=\max(0,x)
\]</div>它的思想很简单：小于 0 的信息直接丢掉，大于 0 的保留。 
但问题在于它是硬截断，但现实数据往往不是非黑即白的。
于是就有了 GELU ，其思想是：
<blockquote>
一个神经元的输出，不是“过不过”，而是“有多大概率应该通过”。
</blockquote>
其定义是：
<div class="math display">\[\text{GELU}(x)=x \cdot \Phi(x)
\]</div>其中， \(\Phi(x)\) 是标准正态分布的 CDF，解释起来涉及较多统计内容，而且真实 CDF 计算很复杂，所以工程上常用近似：
<div class="math display">\[\text{GELU}(x) \approx 0.5x\left(1+\tanh\left[\sqrt{\frac{2}{\pi}}(x+0.044715x^3)\right]\right)
\]</div>我们从作用效果上来理解其作用：
<table>
<thead>
<tr>
<th>x</th>
<th>Φ(x)</th>
</tr>
</thead>
<tbody>
<tr>
<td>很小（负数）</td>
<td>接近 0</td>
</tr>
<tr>
<td>0</td>
<td>0.5</td>
</tr>
<tr>
<td>很大（正数）</td>
<td>接近 1</td>
</tr>
</tbody>
</table>
其实就是得到一个权重，以此来决定保留多少 \(x\) 本身的信息量。
GELU 的优势在于没有那么“硬”，它不会丢掉负值信息，让梯度更平滑，从而更适合需要堆叠的深层网络优化。 
所以 Transformer 的 MLP 中更常用 GELU 激活，ConvNeXt 同样对齐了这一设置。
了解完 ConvNeXt Block，剩下的内容就是堆叠了，不再多说，ConvNeXt 整体结构如下： 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430163859723-1834535829.png" alt="image.png" loading="lazy"> 
一个细节是 ConvNeXt 在每个 stage 的输出仍然保持着“空间尺寸减半，通道数加倍”的设计，但这里要说明的是：
<blockquote>
ConvNeXt 没有使用任何池化，而是用 stride = 2 的 2×2 卷积来改变输出特征图的空间尺度。
</blockquote>
其逻辑是：把所有“手工设计操作”尽量替换成可学习的卷积结构，来实现更完善的数据驱动。 
同时，这里的 stride = 2 的卷积其实对齐的是 Swin Transformer 里的 patch merging 操作，步长的设计保证了采样不重叠。
至此，就完成了 ConvNeXt的完整内容。
<h1 id="5-总结">5. 总结</h1>
上面这里藏了一个问题：
<blockquote>
patch merging 这一操作并不和 ConvNeXt 互斥，为什么 ConvNeXt 不直接使用它，而是用 stride = 2 的 2×2 卷积？
</blockquote>
其实，这恰恰证明了：CNN 并没有失去表达能力，只是需要“现代化设计语言”。 
证据就是：我只借鉴了你的思路，用的还是我自己的东西，并实现了 SOTA 。
从其后续影响来说，ConvNeXt 像是一个分界点，在它之前，CNN 和 Transformer 是两条相对独立的发展路径，在它之后，视觉模型开始出现明显的融合趋势。 
这种趋势延续至今，简单来说就是：你有了新思路，我学过来试试，反之也是一样的。 
后续大量工作都在尝试统一两者的优势，只是就目前而言，还没有出现范式级别的成果。 
来源：https://www.cnblogs.com/Goblinscholar/p/19960370

頁: [1]

圆梦公社's Archiver

深度学习进阶（十四）ConvNeXt