太行一石 發表於 2026-4-24 15:19:00

深度学习进阶(十一)Position-Sensitive RoI Pooling

<p>在上一篇中,我们已经解决了一个关键问题:</p>
<blockquote>
<p><strong>RoI Pooling 的误差主要来源于“坐标量化”,而 RoI Align 通过去除取整 + 双线性插值,有效缓解了这一问题。</strong></p>
</blockquote>
<p>但说到底,这只是一个对齐问题上的改进,我们在上篇的末尾也提到了新的方向:</p>
<blockquote>
<p><strong>能不能让采样过程,具备一定的结构感知能力?</strong></p>
</blockquote>
<p>实际上,早在 RoI Align 之前,就已经有方法具备了这一思路的<strong>雏形</strong>,那就是 <strong>Position-Sensitive RoI Pooling,可以直译为位置敏感的候选框池化,简称 PS RoI Pooling.</strong></p>
<p>显然,其重点就在这个“位置敏感”上,下面就来详细展开:</p>
<h1 id="1-rs-roi-pooling-的背景和思想">1. RS RoI Pooling 的背景和思想</h1>
<p>RS RoI Pooling 来源于 16 年提出的目标检测模型:<strong><em>R-FCN: Object Detection via Region-based Fully Convolutional Networks</em></strong>.</p>
<p>在这篇论文中,作者指出:</p>
<blockquote>
<p><strong>传统 RoI Pooling 的一个核心问题是:它们对空间信息“不敏感”。</strong></p>
</blockquote>
<p>展开来说,在 RoI Pooling 里,我们将原始图像输入网络,得到一个 feature map,其尺寸为:</p>
<p></p><div class="math display">\[H \times W \times C
\]</div><p></p><p>根据基本的卷积知识,我们知道:这里的 <strong>C 个通道,本质上是学习得到的“语义滤波器”</strong>,比如某些通道对“边缘”敏感、某些对“纹理”敏感,而某些对“人脸整体”敏感等等。<br>
简单来说就是:<strong>feature map 的一个通道对应一种提取出的特征。</strong></p>
<p>但问题在于:</p>
<blockquote>
<p><strong>同一个通道,在左上角和右下角的“含义是一样的”。</strong></p>
</blockquote>
<p>再针对这句话展开,我们知道:在 CNN 里,一个通道不是随便来的,它对应的是<strong>同一个卷积核(filter)在整张图上滑动得到的响应</strong>。<br>
也就是说:<strong>同一个卷积核,在不同位置检测的是“同一种模式”,并不会受到空间位置的影响</strong>。</p>
<p>比如某个通道学到了“检测眼睛”,那这个通道在 feature map 上的左上位置有高响应,就说明那里有“眼睛”、右下位置有高响应,就说明那里也有“眼睛”,<strong>它不会区分“这是左上还是右下”。</strong></p>
<p>现在回到我们的任务:一个 RoI(假设为人脸),被分成 <span class="math inline">\(3 \times 3\)</span>:<br>
根据认知,我们当然知道左上是眼睛、中间是鼻子、下方是嘴等分布。<br>
但实际上 feature map 提供的其实是:</p>
<table>
<thead>
<tr>
<th>通道</th>
<th>意义</th>
</tr>
</thead>
<tbody>
<tr>
<td>channel 5</td>
<td>“有没有眼睛”</td>
</tr>
<tr>
<td>channel 12</td>
<td>“有没有鼻子”</td>
</tr>
<tr>
<td>channel 27</td>
<td>“有没有嘴巴”</td>
</tr>
</tbody>
</table>
<p>现在的矛盾点是:</p>
<blockquote>
<p><strong>通道本身不区分位置,但任务却要求“不同位置关注不同语义”。</strong></p>
</blockquote>
<p>如果网络要学习到上面的认知,就要依靠反向传播中不同区域的梯度分布,让网络隐式学习来实现。</p>
<p>关键来了,最终<strong>模型必须在同一套参数中同时学两件事</strong>:</p>
<ol>
<li><strong>学语义建模</strong>:学习 channel 表示什么,如 channel 5 = 眼睛、channel 12 = 鼻子这类信息。</li>
<li><strong>学空间对齐</strong>:学习这些语义在不同空间位置的“使用方式”,如左上区域更关注 channel 5,中间区域更关注 channel 12 等。</li>
</ol>
<p><strong>这两件事,本质上是可以解耦的,但现在却耦合在了一起。</strong></p>
<p>而且在这种位置无关的特征表示下,不当的 Pooling 操作就会进一步压缩空间结构,使不同位置的语义差异被平均化,从而加剧信息混淆。</p>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260424151042021-1097905577.png" alt="image.png" loading="lazy"></p>
<p>于是,RS RoI Pooling 的做法是:</p>
<blockquote>
<p><strong>把“位置”直接写进通道,用某个固定的通道来专门负责某个位置,实现“位置敏感”。</strong></p>
</blockquote>
<p>下面就来展开其详细逻辑:</p>
<h1 id="2ps-roi-pooling-的具体改进">2.PS RoI Pooling 的具体改进</h1>
<p>在理解了“位置敏感”的核心思想之后,现在的问题就变成了:</p>
<blockquote>
<p><strong>如何在具体实现中,把“空间位置”编码进通道?</strong></p>
</blockquote>
<p>为此,PS RoI Pooling 的在 RoI Pooling 的框架下进行了两步关键改进:</p>
<ol>
<li><strong>构建位置敏感特征图</strong></li>
<li><strong>按位置进行通道选择并池化</strong></li>
</ol>
<p>下面就来逐个展开:</p>
<h2 id="21-特征图处理">2.1 特征图处理</h2>
<p>在传统的 RoI Pooling 中,负责从原始图像中提取通用特征的主干网络 <strong>backbone</strong> 输出的 feature map 会被直接用于后续操作。</p>
<p>但在 PS RoI Pooling 中,会多出一个关键步骤:</p>
<blockquote>
<p><strong>在原 feature map 上额外接一个 <span class="math inline">\(1 \times 1\)</span> 卷积,用于生成“位置敏感特征图”。</strong></p>
</blockquote>
<p>假设 backbone 输出为:</p>
<p></p><div class="math display">\[H \times W \times C_{in}
\]</div><p></p><p>而我们希望最终得到的 RoI 划分后 bin 的数量是:</p>
<p></p><div class="math display">\[k \times k
\]</div><p></p><p>同时任务中有 <span class="math inline">\(C\)</span> 个类别,那么这个 <span class="math inline">\(1 \times 1\)</span> 卷积的输出通道数将被设计为:</p>
<p></p><div class="math display">\[C \times k \times k
\]</div><p></p><p>也就是说,最终得到的特征图尺寸为:</p>
<p></p><div class="math display">\[H \times W \times (C \cdot k^2)
\]</div><p></p><p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260424152457457-445112382.png" alt="image" loading="lazy"></p>
<p>如图所示,这里的关键在于:</p>
<blockquote>
<p><strong>这 <span class="math inline">\(C \cdot k^2\)</span> 个通道,是带有明确空间语义划分的通道。</strong></p>
</blockquote>
<p>我们可以将其按类别进行分组:每个类别有自己的 <span class="math inline">\(k \times k\)</span> 个通道,并且每个通道对应 RoI 中的一个<strong>固定空间位置</strong>。</p>
<p>举个例子,假设 <span class="math inline">\(k = 2\)</span> ,当前类别为 “人”,那么该类别对应的 4 个通道,就可以理解为:</p>
<table>
<thead>
<tr>
<th>通道编号</th>
<th>语义</th>
</tr>
</thead>
<tbody>
<tr>
<td>1</td>
<td>左上</td>
</tr>
<tr>
<td>2</td>
<td>右上</td>
</tr>
<tr>
<td>3</td>
<td>左下</td>
</tr>
<tr>
<td>4</td>
<td>右下</td>
</tr>
</tbody>
</table>
<p>总结这一步的逻辑如下:</p>
<blockquote>
<p><strong>通过 <span class="math inline">\(1 \times 1\)</span> 卷积,在不改变空间分辨率的前提下,对通道进行线性重组,使其具备位置语义。</strong></p>
</blockquote>
<h2 id="22-通道池化">2.2 通道池化</h2>
<p>现在,我们完成了位置敏感特征图的构建,并且知道了每一个通道都对应于一个类别的 bin ,很容易想到这一步的改进:</p>
<blockquote>
<p><strong>每个 bin 不再使用“所有通道”,而是只使用“与自身位置对应的那一个通道”。</strong></p>
</blockquote>
<p>我们继续上一步的例子来说明:<br>
此时对于“人”类别,我们已经得到了 4 个位置敏感通道:</p>
<table>
<thead>
<tr>
<th>bin 位置</th>
<th>对应通道</th>
</tr>
</thead>
<tbody>
<tr>
<td>左上 <span class="math inline">\((0,0)\)</span></td>
<td>channel 1</td>
</tr>
<tr>
<td>右上 <span class="math inline">\((0,1)\)</span></td>
<td>channel 2</td>
</tr>
<tr>
<td>左下 <span class="math inline">\((1,0)\)</span></td>
<td>channel 3</td>
</tr>
<tr>
<td>右下 <span class="math inline">\((1,1)\)</span></td>
<td>channel 4</td>
</tr>
</tbody>
</table>
<p>而到了这里,具体的池化逻辑是这样的:</p>
<blockquote>
<p><strong>每一个 bin 的特征计算,只在“对应的那一张位置敏感特征图”上进行,并且只取该 bin 区域的值,进行池化。</strong></p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260424152510327-1692823065.png" alt="image" loading="lazy"></p>
<p>到在完成所有 <span class="math inline">\(k \times k\)</span> 个 bin 的计算后,<strong>对每个类别,我们都会得到一个 <span class="math inline">\(k \times k\)</span> 大小结构化的输出。</strong></p>
<p>不同于原始 RoI Pooling ,现在的结果不再是“混合语义特征”,而是具有明确语义:<strong>每个空间位置对当前类别的独立响应。</strong></p>
<p>实际上,原论文最后还有一步改进,就是将最后聚合的全连接层直接改为<strong>投票</strong>:<strong>将所有位置的响应进行累加或平均,得到该类别的最终得分。</strong></p>
<p></p><div class="math display">\[score_c = \sum_{i,j} y_c(i,j)
\]</div><p></p><p>并不复杂,简单理解就是:<strong>在输出绑定空间位置的情况下,每个元素都有明确语义:局部判断,我们直接使用它们合成全局判断就好</strong>。不再多说了。</p>
<h1 id="3rs-roi-pooling-和-roi-align">3.RS RoI Pooling 和 RoI Align</h1>
<p>总结来说,<strong>RS RoI Pooling 通过对特征图通道数的设计实现了一种较原始的“内容感知”。</strong><br>
以此,我们再对比来看看 RoI Align 。</p>
<p>首先要说明的是时间线:<strong>RoI Align 的提出晚于 RS RoI Pooling 1 年。</strong><br>
R-FCN <strong>在设计上也并未引入精细的几何对齐机制,而是通过通道绑定实现空间对齐。</strong><br>
而 RoI Align 的出现,则是因为<strong>在实例分割等任务中,像素级误差会显著影响边界质量。</strong></p>
<p>这里很容易有这样一个想法:</p>
<blockquote>
<p><strong>看起来二者好像并不冲突,能不能就像 Adam组合Momentum和RMSprop一样,合成二者得到更好的方法?</strong></p>
</blockquote>
<p>可惜,答案是否定的。<br>
<strong>问题在于,这两种方法对“空间”有完全不同的定义。</strong></p>
<p>PS RoI Pooling 实际上是在做一件事:<strong>把 RoI 内部的空间划分,直接绑定到通道结构上。</strong><br>
本质上来说,这种逻辑划分的空间结构是“<strong>离散的</strong>”,每个 bin 被确定在固定语义位置,通道划分明确。</p>
<p>而提出 RoI Align 的 Mask R-CNN 则相反: <strong>空间必须保持连续性,任何离散化都会带来误差。</strong><br>
如果我们尝试“先 RoI Align,再 PS Pooling”,会导致<strong>通道和空间位置的硬绑定关系被破坏</strong>。因为插值之后,一个位置的特征就会来自多个邻域,不再严格属于某一个空间 bin。<br>
反过来,如果“先 PS Pooling 再 Align”空间已经被映射到通道,再做几何插值虽然可以实现,但现在的<strong>特征已经不再依靠“连续性”了,意义不大。</strong><br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260424151034350-488325549.png" alt="image.png" loading="lazy"></p>
<p>因此,在实际工程中,二者往往不会一起使用。</p>
<p>于此同时,这两种方法虽然分别优化了不同问题,但也都存在各自局限:</p>
<ul>
<li>RS RoI Pooling:虽然实现了初版的“内容感知”,但结构仍是<strong>人为固定划分的</strong>。</li>
<li>RoI Align:几何对齐也是<strong>手工设计的插值规则</strong>。</li>
</ul>
<p>也就是说:<strong>采样规则和结构仍然是静态的,并不能“自适应”不同的内容。</strong><br>
自然而然地,一种最符合深度学习思想的逻辑出现了:</p>
<blockquote>
<p><strong>如果空间结构本身是复杂变化的,那能不能让“采样方式”也变成可学习的?</strong></p>
</blockquote>
<p>这便是下一篇内容。</p><br><br>
来源:https://www.cnblogs.com/Goblinscholar/p/19923508
頁: [1]
查看完整版本: 深度学习进阶(十一)Position-Sensitive RoI Pooling