深度学习进阶（十三）可变形卷积 DCN

把水临风 發表於 2026-4-29 22:01:00

深度学习进阶（十三）可变形卷积 DCN

之前的内容里，我们提出了让 CNN 更灵活的想法：
<blockquote>
能不能让“采样位置”本身，变成可以学习的？
</blockquote>
在上一篇里，我们已经用可变形池化实现了这一目标。但同时我们也提到了，这并非终点：
<blockquote>
既然池化可以偏移采样，那更基础的卷积本身为什么不能？
</blockquote>
这便是 Deformable Convolutional Networks 里的核心创新：可变形卷积，简称 DCN。
<h1 id="1-从卷积到可变形卷积">1. 从卷积到可变形卷积</h1>
<h2 id="11-传统卷积层的建模局限">1.1 传统卷积层的建模局限</h2>
首先要强调的是：DCN 并不是一种独立的网络结构，而是一种针对卷积操作的改进方法。通常不会单独称一个模型为“DCN”，而是称其为：基于 DCN 的网络（DCN-based models），或者 DCN 算子。
因此，在展开 DCN 之前，我们先回顾一下 CNN 本身的核心操作：卷积。 
这里，我们以最常见的二维卷积展开：
<div class="math display">\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n) \cdot x(p_0 + p_n)+b
\]</div>再简单解释一下这个公式：
<ol>
<li>\(x\) ：输入特征图。</li>
<li>\(p_0\)：当前输出位置。</li>
<li>\(\mathcal{R}\)：卷积核的采样位置，决定偏移坐标 \(p_n\) 。</li>
<li>\(w(p_n)\)：卷积核中的对应的卷积权重。</li>
</ol>
总结公式逻辑：通过输出位置和偏移的组合遍历所有卷积核覆盖位置，对相应元素进行线性组合。 
如果你有些遗忘，可以在这里查看之前的介绍：图像处理基础。
继续，这里的关键点是：采样位置 \(\mathcal{R}\) 是固定的。 
比如一个 \(3\times3\) 卷积核，每个输出位置只能采样自身和周围的总计 9 个元素。 
从出发点来说，这本身是没有问题的，因为这就是我们根据图像的局部性、平移不变性先验引入的归纳偏置。
但还是老问题：
<blockquote>
这种偏置太刚性了。
</blockquote>
一个事实是：现实中的大多结构特征往往不是方格，小到弯曲的边缘、不规则纹理、大到人脸特征、动物体型等等。
又或者我们进行了数据增强，让目标发生形变、偏移、旋转、拉伸等等情况，这时重要信息就不再落在这些固定采样点上，从而导致表达能力受限。
虽然随着层级传播感受野会逐渐扩大，但局部感受野始终被定死是规则矩形。 无法改变采样模式本身。 
这便是 DCN 要解决的问题，它的基本逻辑和可变形池化相同，但拥有更多细节，实现的效果也更加灵活。
<h2 id="12-dcn-的发展和思想">1.2 DCN 的发展和思想</h2>
实际上，DCN 并非只有 Deformable Convolutional Networks这一孤篇，这篇起源论文只是它的第一版，我们可以称为 DCNv1 。 
提出 DCNv1 的研究团队在 19 年又发布了新的论文：Deformable ConvNets v2: More Deformable, Better Results，进一步引入了 modulation 机制，使得特征采样不仅位置可变，权重也具备自适应能力。 
到这还没完，其实之后还有一系列其他基于 DCN 思想的变体，就连注意力机制也有吸收 DCN 思想的变体：Deformable Attention. 
总结来说，DCN 这种可学习的采样思路不像我们之前介绍的某些具体模型，它开启了一类可学习采样机制的研究范式，并持续影响至今。
其核心改动和池化同理：在原有采样位置上，引入可学习偏移量。
<div class="math display">\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n)\cdot x(p_0 + p_n + \Delta p_n)+b
\]</div>这里的 \(\Delta p_n\) 就是通过一个额外分支预测得到的偏移量。 
现在网格的每一个采样点都可以“挪位置”，有的点可能贴近边缘，有的点可能集中在关键区域，就像这样： 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215831089-116190384.png" alt="image.png" loading="lazy">
下面就来展开其具体逻辑。
<h1 id="2dcnv1">2.DCNv1</h1>
就像我们刚刚说的，DCN 的基本逻辑和可变形池化是一样的：
<blockquote>
新增一个卷积分支，为每个采样点预测偏移量，再注入取样坐标，通过双线性插值取特征值。
</blockquote>
我们展开一些细节：
<h2 id="21-偏移学习与注入">2.1 偏移学习与注入</h2>
DCN 在这步的具体逻辑如下： 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215856156-1985574673.png" alt="image.png" loading="lazy">
如图所示，假设我们要实现一个 \(3 \times 3\) 的可变形卷积：
<ol>
<li>主分支：仍然是传统的卷积核，输出通道数为 \(C_{out}\)，负责特征提取。</li>
<li>偏移分支：输出通道数为 \(2N\)（\(N\) 为采样点数，\(3 \times 3 = 9\)），负责预测每个采样点的偏移，即 \(\Delta p_n\) 。</li>
</ol>
这里的基本逻辑和上一篇是相同的，就不再赘述了，我们展开两个细节：
<h2 id="22-卷积和池化的对齐差异">2.2 卷积和池化的对齐差异</h2>
首先，因为是像素级对齐，我们不再需要像可变形池化那样通过 bin 内采样点的平均池化来聚合特征，得到用于注入的偏移量。 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215831806-2125123274.png" alt="image.png" loading="lazy"> 
如图，在 DCN 中：对于每一个空间位置 \((x,y)\)，偏移分支可以直接输出该位置对应的 \(\Delta p_n = (\Delta x, \Delta y)\)。 
因此，每个采样位置都可以独立生成自己的采样偏移，而不像池化里的以 bin 为单位的采样偏移。
<h2 id="23-滑动采样的偏差注入">2.3 滑动采样的偏差注入</h2>
其次还有一点需要强调：
<blockquote>
虽然卷积核在特征图上是按照滑动窗口方式逐位置遍历的，但偏移的计算过程并不会随着卷积核的移动而重复执行。
</blockquote>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215833545-700067016.png" alt="image.png" loading="lazy"> 
如图所示，偏移分支在前向传播中仅执行一次卷积运算，就能得到完整的偏移特征图：
<div class="math display">\[\Delta p \in \mathbb{R}^{2N \times H \times W}
\]</div>之后在实际的可变形卷积计算过程中，卷积核滑动到哪里，就读取哪里对应的偏移进行计算。 
在这种设计中，偏移的学习与卷积本身的滑动计算是解耦的。
此外，对于偏移后得到非整数坐标的取值问题，仍然是双线性插值，就不再展开了。
这样我们就实现了可变形卷积，让卷积本身的采样规则不再局限于固定方格，而是在全图内实现理论上的任意组合。 
不过，虽然理论上一次运算中的采样点可以天南海北，但因为图像特征的局部性，往往实际学到的偏移量也并不会过大，了解即可。
<h1 id="3-调制机制modulation">3. 调制机制（Modulation）</h1>
到上一部分结束，我们已经梳理完了 DCNv1 的完整逻辑。 
不过，虽然采样位置已经可以通过 \(\Delta p_n\) 进行动态调整，但这里仍然存在一个隐含问题：
<blockquote>
所有采样点在聚合时的贡献权重是固定的。
</blockquote>
也就是说，即使某些采样点被偏移到了“无效区域”（如背景、边界噪声），它在最终输出中仍然会被同等对待，这在一定程度上限制了模型的表达能力。
为了解决这一问题，DCNv2 在 DCNv1 的基础上引入了一个新的分支：调制分支。
其核心思想是：
<blockquote>
不仅让采样位置可变，还让每个采样点的“贡献强度”也可学习。
</blockquote>
在形式上，DCNv2 的表达可以写为：
<div class="math display">\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n)\cdot x(p_0 + p_n + \Delta p_n)\cdot m(p_n)
\]</div>其中， \(m(p_n)\) 就是采样点对应的调制系数。 
结构上的改进并不复杂，它的具体逻辑是这样的： 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215917900-1408999052.png" alt="image.png" loading="lazy"> 
如图所示，调制分支通过一个额外的卷积层预测:
<div class="math display">\^{N \times H \times W}
\]</div>在此基础上，输出通过 Sigmoid 进行约束，使其落在 \(\) 区间内，作为每个采样点在聚合中的权重。
这里有一个很明显的问题：
<blockquote>
卷积层参数本身不就包括权重 \(w\) 吗？为什么还要加一个调制系数？
</blockquote>
其实说到底，这是一个粒度问题。
<ol>
<li>权重 \(w\)：是滤波器本身的特性，它对同一个采样位置在不同通道间是共享的。</li>
<li>调制系数：存在特征图内，它是在同一个采样位置下，对每一个采样点的单独设置。</li>
</ol>
再简单点：权重 \(w\) 是“全局调整”，调制系数是“局部精细调整”。
这种机制让 DCNv2 能够更灵活地选择性关注重要的采样点，进一步提升了对复杂结构的建模能力。
到这里，才是使用 DCN 作为模块的主流结构，后续要么就是工程优化，要么就是变体的内容了。 
到本篇为止，大概补充了一些 CNN 自身结构向“自由”的演变过程，之后就会再回到 Attention 相关思路的现代 CNN 结构了。 
当然，发展肯定不是一个单线的过程，绝不是说向 Attention 靠拢的就一定是更好的 CNN，在现代 CNN 结构中，仍然有很多不同的研究方向。 
来源：https://www.cnblogs.com/Goblinscholar/p/19954816

頁: [1]

圆梦公社's Archiver

深度学习进阶（十三）可变形卷积 DCN