性凉薄 發表於 2026-4-27 18:17:00

深度学习进阶(十二)可变形池化 deformable RS RoI Pooling

<p>在上一篇中,我们已经得出了一个非常关键的结论:</p>
<blockquote>
<p><strong>无论是 RoI Align 还是 PS RoI Pooling,本质上都在“改进采样方式”,但它们的采样规则仍然是“人为设计的”,也就是固定的。</strong></p>
</blockquote>
<p>因此我们提出了新的想法:</p>
<blockquote>
<p><strong>能不能让“采样位置”本身,变成可以学习的?</strong></p>
</blockquote>
<p>这种想法的实现结果之一就是 <strong>Deformable PS RoI Pooling,可以直译为可变形的位置敏感候选框池化</strong>。</p>
<p>同样显而易见,它的改进就在这个“<strong>可变形</strong>”上。</p>
<h1 id="1-deformable-ps-roi-pooling-的提出和思想">1. Deformable PS RoI Pooling 的提出和思想</h1>
<p>Deformable PS RoI Pooling 起源于 17 年的论文:<strong><em>Deformable Convolutional Networks</em></strong>。<br>
实际上,这篇论文提出了两大核心创新:<strong>可变形卷积和可变形池化。</strong><br>
<strong>我们本篇先引入可变形池化内容,之后再以此为基础展开可变形卷积的逻辑。</strong></p>
<p>而总结来说,Deformable PS RoI Pooling 的核心思想是:</p>
<blockquote>
<p><strong>在 PS RoI Pooling 的基础上,为每一个 bin 引入可学习的空间偏移。</strong></p>
</blockquote>
<p>不再过多铺垫,我们直接展开它的具体传播过程来理解它的逻辑。</p>
<h1 id="2-偏移学习">2. 偏移学习</h1>
<p>我们知道,在标准的 PS RoI Pooling 中,每个 bin 的采样点是固定的。<br>
但在 Deformable PS RoI Pooling 中,引入了偏移的概念:<strong>偏移量不是作用在边界坐标上的,而是作用在每个采样点上的</strong>。<br>
比如 <span class="math inline">\((x,y)\)</span> 是 bin 内的某个采样位置,其引入偏移后就变成了:</p>
<p></p><div class="math display">\[(x + \Delta x_{ij}, y + \Delta y_{ij})
\]</div><p></p><p><span class="math inline">\((\Delta x_{ij}, \Delta y_{ij})\)</span> 就是这个 bin 的偏移。<br>
<strong>一个 bin 通常只用一组偏移(Δx, Δy),它是整个 bin 里所有采样点的“统一偏移”。</strong></p>
<p>这里的关键是:<strong><span class="math inline">\(\Delta x, \Delta y\)</span> 不是人为设定的,而是通过网络学习得到的。</strong></p>
<p>显然,为了得到这些偏移,模型就要有新的结构变化:</p>
<blockquote>
<p><strong>增加一个分支,作用是在特征图层面预测偏移,再通过 RoI 内的池化操作,为每个 bin 聚合出对应的偏移量。</strong></p>
</blockquote>
<p>其具体逻辑如下:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260427180059911-1611928500.png" alt="image.png" loading="lazy"><br>
(<strong>如果你看了 DCNv1 的原论文,可能会发现一些不同设计,在下一部分会展开解释。</strong>)<br>
如图所示,假设有 <span class="math inline">\(k \times k\)</span> 个 bin ,那么偏移分支输出的特征图尺寸就是:</p>
<p></p><div class="math display">\[H \times W \times (2k^2)
\]</div><p></p><p><strong>其中,每个 bin 对应 2 个通道(Δx, Δy)。</strong><br>
具体拆开,我们为偏移特征图的每个通道设定的语义如下:</p>
<table>
<thead>
<tr>
<th>通道编号</th>
<th>含义</th>
</tr>
</thead>
<tbody>
<tr>
<td>0</td>
<td>bin(0,0) 的 Δx</td>
</tr>
<tr>
<td>1</td>
<td>bin(0,0) 的 Δy</td>
</tr>
<tr>
<td>2</td>
<td>bin(0,1) 的 Δx</td>
</tr>
<tr>
<td>3</td>
<td>bin(0,1) 的 Δy</td>
</tr>
<tr>
<td>...</td>
<td>...</td>
</tr>
</tbody>
</table>
<p>这种语义同样是通过结构设计嵌入,在反向传播中不断学习得到的。</p>
<p><strong>现在,我们有了两类特征图:位置敏感特征图和偏移特征图。</strong><br>
下一个问题是:</p>
<blockquote>
<p><strong>我们要如何聚合两类特征图的信息得到注入偏移信息的 bin ?</strong></p>
</blockquote>
<h1 id="3-为-bin-注入偏移信息">3. 为 bin 注入偏移信息</h1>
<p>在这部分,我们首先要强调的是:<strong>bin 的采样仍然是在位置敏感特征图中进行,偏移特征图只是为了给不同的 bin 提供偏移信息。</strong><br>
而这部分的详细逻辑可以总结如下:</p>
<blockquote>
<p><strong>对于每个 bin ,在偏移特征图中的对应通道的对应区域进行平均池化得到两个方向的偏移量,再将偏移量和该 bin 在位置敏感特征图中的所有采样点相加,得到最终采样点坐标。</strong></p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260427180100060-964703366.png" alt="image.png" loading="lazy"></p>
<p>如图所示,这样有一点需要强调:<strong>在原论文中,bin 在不同类别的偏移量是单独预测的,同一个 bin 内的偏移在不同类别间不共享,在上一步的通道尺度设计也有所不同,图中是现代改进后的主流结构。</strong></p>
<p><strong>在这里,同一个 bin 的 <span class="math inline">\((\Delta x, \Delta y)\)</span>,在所有类别上是共享的。</strong><br>
这是因为<strong>几何结构的调整,通常和类别无关</strong>。<br>
比如一个 RoI 框住的是“人”,他可能左偏一点、头歪一点或者嘴张开一点,换成别的类别也一样,这些都是结构偏移,而不是类别差异。<br>
其次,也是因为类别级的偏移学习需要更多数据,而且需要学习更多参数。</p>
<p><strong>由此,我们就在采样位置上加入了可学习的偏移量,让采样变得更灵活,更加“自适应”。</strong><br>
但一个新的问题接踵而至:</p>
<blockquote>
<p><strong>学习得到的采样点不是整数怎么办?</strong></p>
</blockquote>
<h1 id="4-可变形池化的插值问题">4. 可变形池化的插值问题</h1>
<p>这是一个比看起来起来要严重的问题。当采样位置变成:</p>
<p></p><div class="math display">\[(x + \Delta x, y + \Delta y)
\]</div><p></p><p>它通常不再是整数坐标。<br>
因此必须引入一个机制,<strong>对非整数位置进行特征读取。</strong></p>
<p>而这里的处理方式与 RoI Align 类似:</p>
<blockquote>
<p><strong>使用双线性插值,从周围点估计该位置的值。</strong></p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260427180100434-1317768983.png" alt="image.png" loading="lazy"><br>
不难理解,但要注意一点: <strong>这里的插值不是为了“对齐”,而是为了“支持可变采样”。</strong></p>
<p>简单展开一下,你可能会感觉这里像是把 PS RoI Pooling 和 RoI Align 的逻辑加起来了。<br>
但实际上,我们在上一篇末尾就提到了:<strong>PS Pooling 和 Align 通常不会一起使用。</strong><br>
在这里使用插值只是为了让可变形池化的计算可以进行,而不是为了实现 RoI Align 的几何对齐效果,<strong>它们只是都用了双线性插值,仅此而已。</strong></p>
<p>到这里,我们就梳理完了所有的改进点,之后再对每个 bin 中采样点的特征值进行池化,就可以得到最终输出,用于后续操作。</p>
<p>这便是可变形池化,他实现了可学习的采样偏移,让池化可以不再按照“严丝合缝的固定方格”进行采样,而是可以灵活的进行偏移。</p>
<p>一个想法是:</p>
<blockquote>
<p><strong>既然都是采样,池化的采样可以偏移,那更基础的卷积本身为什么不可以呢?</strong></p>
</blockquote>
<p>这便是下一篇的内容:<strong>可变形卷积 DCN</strong> .</p><br><br>
来源:https://www.cnblogs.com/Goblinscholar/p/19939426
頁: [1]
查看完整版本: 深度学习进阶(十二)可变形池化 deformable RS RoI Pooling