深度学习进阶(十三)可变形卷积 DCN
<p>之前的内容里,我们提出了让 CNN 更灵活的想法:</p><blockquote>
<p><strong>能不能让“采样位置”本身,变成可以学习的?</strong></p>
</blockquote>
<p>在上一篇里,我们已经用可变形池化实现了这一目标。但同时我们也提到了,这并非终点:</p>
<blockquote>
<p><strong>既然池化可以偏移采样,那更基础的卷积本身为什么不能?</strong></p>
</blockquote>
<p>这便是 <strong><em>Deformable Convolutional Networks</em></strong> 里的核心创新:<strong>可变形卷积,简称 DCN。</strong></p>
<h1 id="1-从卷积到可变形卷积">1. 从卷积到可变形卷积</h1>
<h2 id="11-传统卷积层的建模局限">1.1 传统卷积层的建模局限</h2>
<p>首先要强调的是:<strong>DCN 并不是一种独立的网络结构,而是一种针对卷积操作的改进方法。通常不会单独称一个模型为“DCN”,而是称其为:基于 DCN 的网络(DCN-based models),或者 DCN 算子。</strong></p>
<p>因此,在展开 DCN 之前,我们先回顾一下 CNN 本身的核心操作:<strong>卷积</strong>。<br>
这里,我们以最常见的二维卷积展开:</p>
<p></p><div class="math display">\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n) \cdot x(p_0 + p_n)+b
\]</div><p></p><p>再简单解释一下这个公式:</p>
<ol>
<li><span class="math inline">\(x\)</span> :输入特征图。</li>
<li><span class="math inline">\(p_0\)</span>:当前输出位置。</li>
<li><span class="math inline">\(\mathcal{R}\)</span>:卷积核的采样位置,决定偏移坐标 <span class="math inline">\(p_n\)</span> 。</li>
<li><span class="math inline">\(w(p_n)\)</span>:卷积核中的对应的卷积权重。</li>
</ol>
<p>总结公式逻辑:<strong>通过输出位置和偏移的组合遍历所有卷积核覆盖位置,对相应元素进行线性组合。</strong><br>
如果你有些遗忘,可以在这里查看之前的介绍:图像处理基础。</p>
<p>继续,这里的关键点是:<strong>采样位置 <span class="math inline">\(\mathcal{R}\)</span> 是固定的。</strong><br>
比如一个 <span class="math inline">\(3\times3\)</span> 卷积核,每个输出位置只能采样自身和周围的总计 9 个元素。<br>
从出发点来说,这本身是没有问题的,因为这就是我们根据图像的局部性、平移不变性先验引入的归纳偏置。</p>
<p>但还是老问题:</p>
<blockquote>
<p><strong>这种偏置太刚性了。</strong></p>
</blockquote>
<p>一个事实是:<strong>现实中的大多结构特征往往不是方格</strong>,小到弯曲的边缘、不规则纹理、大到人脸特征、动物体型等等。</p>
<p>又或者我们进行了数据增强,让目标发生<strong>形变、偏移、旋转、拉伸</strong>等等情况,这时重要信息就不再落在这些固定采样点上,从而导致表达能力受限。</p>
<p>虽然随着层级传播感受野会逐渐扩大,但<strong>局部感受野始终被定死是规则矩形。</strong> 无法改变采样模式本身。<br>
这便是 DCN 要解决的问题,它的基本逻辑和可变形池化相同,但拥有更多细节,实现的效果也更加灵活。</p>
<h2 id="12-dcn-的发展和思想">1.2 DCN 的发展和思想</h2>
<p>实际上,DCN 并非只有 <strong><em>Deformable Convolutional Networks</em></strong>这一孤篇,这篇起源论文只是它的第一版,我们可以称为 DCNv1 。<br>
提出 DCNv1 的研究团队在 19 年又发布了新的论文:<strong><em>Deformable ConvNets v2: More Deformable, Better Results</em></strong>,进一步引入了 <strong>modulation 机制</strong>,使得特征采样不仅位置可变,权重也具备自适应能力。<br>
到这还没完,其实之后还有一系列其他基于 DCN 思想的变体,就连注意力机制也有吸收 DCN 思想的变体:Deformable Attention.<br>
<strong>总结来说,DCN 这种可学习的采样思路不像我们之前介绍的某些具体模型,它开启了一类可学习采样机制的研究范式,并持续影响至今。</strong></p>
<p>其核心改动和池化同理:<strong>在原有采样位置上,引入可学习偏移量。</strong></p>
<p></p><div class="math display">\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n)\cdot x(p_0 + p_n + \Delta p_n)+b
\]</div><p></p><p>这里的 <span class="math inline">\(\Delta p_n\)</span> 就是通过一个额外分支预测得到的偏移量。<br>
现在网格的每一个采样点都可以“挪位置”,有的点可能贴近边缘,有的点可能集中在关键区域,就像这样:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215831089-116190384.png" alt="image.png" loading="lazy"></p>
<p>下面就来展开其具体逻辑。</p>
<h1 id="2dcnv1">2.DCNv1</h1>
<p>就像我们刚刚说的,DCN 的基本逻辑和可变形池化是一样的:</p>
<blockquote>
<p><strong>新增一个卷积分支,为每个采样点预测偏移量,再注入取样坐标,通过双线性插值取特征值。</strong></p>
</blockquote>
<p>我们展开一些细节:</p>
<h2 id="21-偏移学习与注入">2.1 偏移学习与注入</h2>
<p>DCN 在这步的具体逻辑如下:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215856156-1985574673.png" alt="image.png" loading="lazy"></p>
<p>如图所示,假设我们要实现一个 <span class="math inline">\(3 \times 3\)</span> 的可变形卷积:</p>
<ol>
<li><strong>主分支</strong>:仍然是传统的卷积核,输出通道数为 <span class="math inline">\(C_{out}\)</span>,负责特征提取。</li>
<li><strong>偏移分支</strong>:输出通道数为 <span class="math inline">\(2N\)</span>(<span class="math inline">\(N\)</span> 为采样点数,<span class="math inline">\(3 \times 3 = 9\)</span>),负责预测每个采样点的偏移,即 <span class="math inline">\(\Delta p_n\)</span> 。</li>
</ol>
<p>这里的基本逻辑和上一篇是相同的,就不再赘述了,我们展开两个细节:</p>
<h2 id="22-卷积和池化的对齐差异">2.2 卷积和池化的对齐差异</h2>
<p>首先,<strong>因为是像素级对齐,我们不再需要像可变形池化那样通过 bin 内采样点的平均池化来聚合特征,得到用于注入的偏移量。</strong><br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215831806-2125123274.png" alt="image.png" loading="lazy"><br>
如图,在 DCN 中:<strong>对于每一个空间位置 <span class="math inline">\((x,y)\)</span>,偏移分支可以直接输出该位置对应的 <span class="math inline">\(\Delta p_n = (\Delta x, \Delta y)\)</span>。</strong><br>
因此,每个采样位置都可以<strong>独立</strong>生成自己的采样偏移,而不像池化里的以 bin 为单位的采样偏移。</p>
<h2 id="23-滑动采样的偏差注入">2.3 滑动采样的偏差注入</h2>
<p>其次还有一点需要强调:</p>
<blockquote>
<p><strong>虽然卷积核在特征图上是按照滑动窗口方式逐位置遍历的,但偏移的计算过程并不会随着卷积核的移动而重复执行。</strong></p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215833545-700067016.png" alt="image.png" loading="lazy"><br>
如图所示,<strong>偏移分支在前向传播中仅执行一次卷积运算,就能得到完整的偏移特征图</strong>:</p>
<p></p><div class="math display">\[\Delta p \in \mathbb{R}^{2N \times H \times W}
\]</div><p></p><p>之后在实际的可变形卷积计算过程中,卷积核滑动到哪里,就读取哪里对应的偏移进行计算。<br>
在这种设计中,<strong>偏移的学习与卷积本身的滑动计算是解耦的。</strong></p>
<p>此外,对于偏移后得到非整数坐标的取值问题,仍然是双线性插值,就不再展开了。</p>
<p><strong>这样我们就实现了可变形卷积,让卷积本身的采样规则不再局限于固定方格,而是在全图内实现理论上的任意组合。</strong><br>
不过,虽然理论上一次运算中的采样点可以天南海北,但因为图像特征的局部性,往往实际学到的偏移量也并不会过大,了解即可。</p>
<h1 id="3-调制机制modulation">3. 调制机制(Modulation)</h1>
<p>到上一部分结束,我们已经梳理完了 DCNv1 的完整逻辑。<br>
不过,虽然采样位置已经可以通过 <span class="math inline">\(\Delta p_n\)</span> 进行动态调整,但这里仍然存在一个隐含问题:</p>
<blockquote>
<p><strong>所有采样点在聚合时的贡献权重是固定的。</strong></p>
</blockquote>
<p>也就是说,<strong>即使某些采样点被偏移到了“无效区域”(如背景、边界噪声),它在最终输出中仍然会被同等对待,这在一定程度上限制了模型的表达能力。</strong></p>
<p>为了解决这一问题,DCNv2 在 DCNv1 的基础上引入了一个新的分支:<strong>调制分支</strong>。</p>
<p>其核心思想是:</p>
<blockquote>
<p><strong>不仅让采样位置可变,还让每个采样点的“贡献强度”也可学习。</strong></p>
</blockquote>
<p>在形式上,DCNv2 的表达可以写为:</p>
<p></p><div class="math display">\[y(p_0) = \sum_{p_n \in \mathcal{R}} w(p_n)\cdot x(p_0 + p_n + \Delta p_n)\cdot m(p_n)
\]</div><p></p><p>其中, <span class="math inline">\(m(p_n)\)</span> 就是采样点对应的调制系数。<br>
结构上的改进并不复杂,它的具体逻辑是这样的:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260429215917900-1408999052.png" alt="image.png" loading="lazy"><br>
如图所示,调制分支通过一个额外的卷积层预测:</p>
<p></p><div class="math display">\^{N \times H \times W}
\]</div><p></p><p>在此基础上,<strong>输出通过 Sigmoid 进行约束</strong>,使其落在 <span class="math inline">\(\)</span> 区间内,作为每个采样点在聚合中的权重。</p>
<p>这里有一个很明显的问题:</p>
<blockquote>
<p><strong>卷积层参数本身不就包括权重 <span class="math inline">\(w\)</span> 吗?为什么还要加一个调制系数?</strong></p>
</blockquote>
<p>其实说到底,这是一个<strong>粒度问题</strong>。</p>
<ol>
<li><strong>权重 <span class="math inline">\(w\)</span></strong>:是<strong>滤波器本身的特性</strong>,它对同一个采样位置在不同通道间是<strong>共享</strong>的。</li>
<li><strong>调制系数</strong>:存在特征图内,<strong>它是在同一个采样位置下,对每一个采样点的单独设置</strong>。</li>
</ol>
<p>再简单点:<strong>权重 <span class="math inline">\(w\)</span> 是“全局调整”,调制系数是“局部精细调整”。</strong></p>
<p>这种机制让 DCNv2 能够更灵活地<strong>选择性关注</strong>重要的采样点,进一步提升了对复杂结构的建模能力。</p>
<p>到这里,才是使用 DCN 作为模块的主流结构,后续要么就是工程优化,要么就是变体的内容了。<br>
到本篇为止,大概补充了一些 CNN 自身结构向“自由”的演变过程,之后就会再回到 Attention 相关思路的现代 CNN 结构了。<br>
当然,发展肯定不是一个单线的过程,绝不是说向 Attention 靠拢的就一定是更好的 CNN,在现代 CNN 结构中,仍然有很多不同的研究方向。</p><br><br>
来源:https://www.cnblogs.com/Goblinscholar/p/19954816
頁:
[1]