深度学习进阶(十四)ConvNeXt
<p>在之前的内容里,我们展开了 CNN 的一些演进,知道 CNN 本身也在不断发展。<br>现在我们再绕回 Transformer :在 21 年 Swin Transformer发表后,以它为代表的诸多 ViT 工作,已经在多个视觉任务上<strong>全面超越传统 CNN</strong>。</p>
<p>这带来了一个非常现实的思考:</p>
<blockquote>
<p><strong>就像珍妮机淘汰手工纺织一样,ViT 会不会将 CNN 扫入历史?</strong></p>
</blockquote>
<p>要对这个问题下初步结论,还需要简单回顾一下之前的内容:<br>
20 年,最初的 Vision Transformer其实只是对图像数据进行了序列化处理后输入 Transformer ,因此这也带来了需要<strong>超大数据量和超高计算量</strong>的问题,虽然实现了 SOTA ,但没有较高的可用性。</p>
<p>所以,Data-efficient Image Transformer提出通过蒸馏,以教师模型的输出监督训练,从而缓解 ViT 的数据依赖问题。有趣的是,这里的<strong>教师模型就是训练好的强大 CNN</strong>,因此,DeiT 虽然提高了可用性,但却并不“独立”。</p>
<p>于是,Swin Transformer不再追求引入外部的归纳配置,而是通过自身结构的改进来重建偏置,从而成为 ViT 的核心代表。不过,由于它的改进点太像 CNN 里的卷积和池化逻辑,因此也常被称为“<strong>Transformer 版的 CNN</strong>”。</p>
<p>到这里,就到了思维上的关键点:</p>
<blockquote>
<p><strong>图像数据本身的先验都是相同的,无论是卷积池化,还是 windows attention 和 patch merging ,其实都是根据局部性、平移不变性等先验引入的归纳偏置,所以看起来十分相似。</strong></p>
</blockquote>
<p>总结来说一句话:<strong>题目都是一样的,就看你的解题方法。</strong><br>
所以,在 Transformer 大获成功之后,研究者并没有直接放弃 CNN,反而提出了新的想法:</p>
<blockquote>
<p><strong>让 CNN 再借鉴一下 Transformer 的解题思路试试呢?</strong></p>
</blockquote>
<p>这正是论文 <strong><em>ConvNeXt: A ConvNet for the 2020s</em></strong> 的出发点,顾名思义:20 年代的卷积网络。<br>
我们用对比方式来展开其详细改进,其实每一点都不算复杂:</p>
<h1 id="1-大卷积核和-windows-attention">1. 大卷积核和 windows attention</h1>
<p>在之前的 Swin Transformer 中,一个非常核心的设计是:</p>
<blockquote>
<p><strong>将全局 Attention 限制在局部窗口(window)内计算</strong></p>
</blockquote>
<p>这一设计既降低了计算复杂度,还引入了局部性归纳偏置。</p>
<p>如果说 Swin 把全局 Attention 拆成局部 Attention 是在学“<strong>局部</strong>”,那 ConvNeXt 的相应设计就是在学“<strong>全局</strong>”。</p>
<p>传统 CNN 常用的是 <span class="math inline">\(3\times3\)</span> 卷积核,这带来的问题是感受野增长依赖层数堆叠,同时单层建模能力也较弱。<br>
所以,ConvNeXt 的改动内容是:</p>
<blockquote>
<p><strong>将卷积核从 <span class="math inline">\(3\times3\)</span> 扩展到 <span class="math inline">\(7\times7\)</span> 。</strong></p>
</blockquote>
<p>这一步可以理解为:<strong>用“大卷积核”去逼近 window attention 的感受野。</strong></p>
<p>不过要强调的是,虽然感受野的范围更接近了,但两者仍然有本质区别:<strong>Attention 使用的是内容相关的动态权重,而普通卷积核虽然在迭代学习,但还是参数固定的静态权重。</strong></p>
<h1 id="2-解耦卷积和-swin-block">2. 解耦卷积和 Swin Block</h1>
<p>同样还是先回顾一下,在 ViT 及其后续结构中,一个清晰的设计范式是:</p>
<blockquote>
<p><strong>空间建模(Attention) + 通道建模(MLP)分开进行。</strong></p>
</blockquote>
<p>而在传统 CNN 中,这两件事是“绑在一起”的:<strong>标准卷积同时完成:空间建模 + 通道融合。</strong><br>
简单展开如下:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430163716081-1313879314.png" alt="image.png" loading="lazy"><br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430163715161-503554447.png" alt="image.png" loading="lazy"></p>
<p>如图所示,我们对这种耦合问题并不陌生,这种学习负担会让卷积的表达能力不够灵活,从而限制模型上限。</p>
<p>于是,ConvNeXt 引入的相应设计是:</p>
<blockquote>
<p><strong>把一层标准卷积拆成两层:Depthwise Conv + Pointwise Conv,一个只做空间建模,一个只做通道融合。</strong></p>
</blockquote>
<p>需要说明的是,<strong>这种思路不是 ConvNeXt 首创的</strong>,早在 17 年的论文:<strong><em>Xception: Deep Learning with Depthwise Separable Convolutions</em></strong>中已经提出了这种卷积可以完全解耦的思想。<br>
而 ConvNeXt 在这里的使用其实是<strong>赋予了其与 Transformer 对齐的结构意义</strong>。</p>
<table>
<thead>
<tr>
<th>Transformer</th>
<th>ConvNeXt</th>
</tr>
</thead>
<tbody>
<tr>
<td>Attention</td>
<td>Depthwise Conv</td>
</tr>
<tr>
<td>MLP</td>
<td>Pointwise Conv</td>
</tr>
</tbody>
</table>
<p>具体展开如下:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430164054499-1799401846.png" alt="image.png" loading="lazy"><br>
这一改动,可以说是 ConvNeXt 最接近 Transformer 思想的一步。</p>
<h1 id="3-layernorm">3. LayerNorm</h1>
<p>这里同样是在向 Transformer 看齐,传统 CNN 普遍使用的是 Batch Normalization,而 ViT 系列统一使用 Layer Normalization .<br>
两者都是用来稳定梯度,加速收敛的归一化手段,核心区别在于 <strong>BN 的效果依赖 batch 统计量,而 LN 是对单样本归一化。</strong></p>
<p>所以,ConvNeXt 做出的选择是:</p>
<blockquote>
<p><strong>全面用 LayerNorm 替代 BatchNorm。</strong></p>
</blockquote>
<p>并不复杂,就不再展开了。</p>
<h1 id="4-convnext-整体结构">4. ConvNeXt 整体结构</h1>
<p>完成了几大改进点后,就像一个个组件组成 Transformer block 一样,我们也可以得到 <strong>ConvNeXt Block</strong> 如下:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430163715085-2138339223.png" alt="image.png" loading="lazy"><br>
这种结构我们已经很熟悉了,这里有一点我们没提过,是 <strong>GELU(Gaussian Error Linear Unit,高斯误差线性单元)激活函数。</strong></p>
<p>简单展开一下,我们知道最基础的 ReLU 是:</p>
<p></p><div class="math display">\[\text{ReLU}(x)=\max(0,x)
\]</div><p></p><p>它的思想很简单:小于 0 的信息直接丢掉,大于 0 的保留。<br>
但问题在于它是<strong>硬截断</strong>,但现实数据往往不是非黑即白的。</p>
<p>于是就有了 GELU ,其思想是:</p>
<blockquote>
<p><strong>一个神经元的输出,不是“过不过”,而是“有多大概率应该通过”。</strong></p>
</blockquote>
<p>其定义是:</p>
<p></p><div class="math display">\[\text{GELU}(x)=x \cdot \Phi(x)
\]</div><p></p><p>其中, <span class="math inline">\(\Phi(x)\)</span> 是<strong>标准正态分布的 CDF</strong>,解释起来涉及较多统计内容,而且真实 CDF 计算很复杂,所以<strong>工程上常用近似</strong>:</p>
<p></p><div class="math display">\[\text{GELU}(x) \approx 0.5x\left(1+\tanh\left[\sqrt{\frac{2}{\pi}}(x+0.044715x^3)\right]\right)
\]</div><p></p><p>我们从作用效果上来理解其作用:</p>
<table>
<thead>
<tr>
<th>x</th>
<th>Φ(x)</th>
</tr>
</thead>
<tbody>
<tr>
<td>很小(负数)</td>
<td>接近 0</td>
</tr>
<tr>
<td>0</td>
<td>0.5</td>
</tr>
<tr>
<td>很大(正数)</td>
<td>接近 1</td>
</tr>
</tbody>
</table>
<p><strong>其实就是得到一个权重,以此来决定保留多少 <span class="math inline">\(x\)</span> 本身的信息量。</strong></p>
<p><strong>GELU 的优势在于没有那么“硬”,它不会丢掉负值信息,让梯度更平滑,从而更适合需要堆叠的深层网络优化。</strong><br>
所以 Transformer 的 MLP 中更常用 GELU 激活,ConvNeXt 同样对齐了这一设置。</p>
<p>了解完 ConvNeXt Block,剩下的内容就是堆叠了,不再多说,ConvNeXt 整体结构如下:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260430163859723-1834535829.png" alt="image.png" loading="lazy"><br>
一个细节是 <strong>ConvNeXt 在每个 stage 的输出仍然保持着“空间尺寸减半,通道数加倍”的设计</strong>,但这里要说明的是:</p>
<blockquote>
<p><strong>ConvNeXt 没有使用任何池化,而是用 stride = 2 的 2×2 卷积来改变输出特征图的空间尺度。</strong></p>
</blockquote>
<p>其逻辑是:<strong>把所有“手工设计操作”尽量替换成可学习的卷积结构,来实现更完善的数据驱动。</strong><br>
同时,这里的 stride = 2 的卷积其实对齐的是 Swin Transformer 里的 patch merging 操作,<strong>步长的设计保证了采样不重叠</strong>。</p>
<p>至此,就完成了 ConvNeXt的完整内容。</p>
<h1 id="5-总结">5. 总结</h1>
<p>上面这里藏了一个问题:</p>
<blockquote>
<p><strong>patch merging 这一操作并不和 ConvNeXt 互斥,为什么 ConvNeXt 不直接使用它,而是用 stride = 2 的 2×2 卷积?</strong></p>
</blockquote>
<p>其实,这恰恰证明了:<strong>CNN 并没有失去表达能力,只是需要“现代化设计语言”。</strong><br>
证据就是:我只借鉴了你的思路,用的还是我自己的东西,并实现了 SOTA 。</p>
<p>从其后续影响来说,ConvNeXt 像是一个<strong>分界点</strong>,在它之前,CNN 和 Transformer 是两条相对独立的发展路径,在它之后,视觉模型开始出现明显的融合趋势。<br>
这种趋势延续至今,简单来说就是:你有了新思路,我学过来试试,反之也是一样的。<br>
后续大量工作都在尝试<strong>统一两者的优势</strong>,只是就目前而言,还没有出现范式级别的成果。</p><br><br>
来源:https://www.cnblogs.com/Goblinscholar/p/19960370
頁:
[1]