深度学习进阶（十一）Position-Sensitive RoI Pooling

太行一石 發表於 2026-4-24 15:19:00

深度学习进阶（十一）Position-Sensitive RoI Pooling

在上一篇中，我们已经解决了一个关键问题：
<blockquote>
RoI Pooling 的误差主要来源于“坐标量化”，而 RoI Align 通过去除取整 + 双线性插值，有效缓解了这一问题。
</blockquote>
但说到底，这只是一个对齐问题上的改进，我们在上篇的末尾也提到了新的方向：
<blockquote>
能不能让采样过程，具备一定的结构感知能力？
</blockquote>
实际上，早在 RoI Align 之前，就已经有方法具备了这一思路的雏形，那就是 Position-Sensitive RoI Pooling，可以直译为位置敏感的候选框池化，简称 PS RoI Pooling.
显然，其重点就在这个“位置敏感”上，下面就来详细展开：
<h1 id="1-rs-roi-pooling-的背景和思想">1. RS RoI Pooling 的背景和思想</h1>
RS RoI Pooling 来源于 16 年提出的目标检测模型：R-FCN: Object Detection via Region-based Fully Convolutional Networks.
在这篇论文中，作者指出：
<blockquote>
传统 RoI Pooling 的一个核心问题是：它们对空间信息“不敏感”。
</blockquote>
展开来说，在 RoI Pooling 里，我们将原始图像输入网络，得到一个 feature map，其尺寸为：
<div class="math display">\[H \times W \times C
\]</div>根据基本的卷积知识，我们知道：这里的 C 个通道，本质上是学习得到的“语义滤波器”，比如某些通道对“边缘”敏感、某些对“纹理”敏感，而某些对“人脸整体”敏感等等。 
简单来说就是：feature map 的一个通道对应一种提取出的特征。
但问题在于：
<blockquote>
同一个通道，在左上角和右下角的“含义是一样的”。
</blockquote>
再针对这句话展开，我们知道：在 CNN 里，一个通道不是随便来的，它对应的是同一个卷积核（filter）在整张图上滑动得到的响应。 
也就是说：同一个卷积核，在不同位置检测的是“同一种模式”，并不会受到空间位置的影响。
比如某个通道学到了“检测眼睛”，那这个通道在 feature map 上的左上位置有高响应，就说明那里有“眼睛”、右下位置有高响应，就说明那里也有“眼睛”，它不会区分“这是左上还是右下”。
现在回到我们的任务：一个 RoI（假设为人脸），被分成 \(3 \times 3\)： 
根据认知，我们当然知道左上是眼睛、中间是鼻子、下方是嘴等分布。 
但实际上 feature map 提供的其实是：
<table>
<thead>
<tr>
<th>通道</th>
<th>意义</th>
</tr>
</thead>
<tbody>
<tr>
<td>channel 5</td>
<td>“有没有眼睛”</td>
</tr>
<tr>
<td>channel 12</td>
<td>“有没有鼻子”</td>
</tr>
<tr>
<td>channel 27</td>
<td>“有没有嘴巴”</td>
</tr>
</tbody>
</table>
现在的矛盾点是：
<blockquote>
通道本身不区分位置，但任务却要求“不同位置关注不同语义”。
</blockquote>
如果网络要学习到上面的认知，就要依靠反向传播中不同区域的梯度分布，让网络隐式学习来实现。
关键来了，最终模型必须在同一套参数中同时学两件事：
<ol>
<li>学语义建模：学习 channel 表示什么，如 channel 5 = 眼睛、channel 12 = 鼻子这类信息。</li>
<li>学空间对齐：学习这些语义在不同空间位置的“使用方式”，如左上区域更关注 channel 5，中间区域更关注 channel 12 等。</li>
</ol>
这两件事，本质上是可以解耦的，但现在却耦合在了一起。
而且在这种位置无关的特征表示下，不当的 Pooling 操作就会进一步压缩空间结构，使不同位置的语义差异被平均化，从而加剧信息混淆。
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260424151042021-1097905577.png" alt="image.png" loading="lazy">
于是，RS RoI Pooling 的做法是：
<blockquote>
把“位置”直接写进通道，用某个固定的通道来专门负责某个位置，实现“位置敏感”。
</blockquote>
下面就来展开其详细逻辑：
<h1 id="2ps-roi-pooling-的具体改进">2.PS RoI Pooling 的具体改进</h1>
在理解了“位置敏感”的核心思想之后，现在的问题就变成了：
<blockquote>
如何在具体实现中，把“空间位置”编码进通道？
</blockquote>
为此，PS RoI Pooling 的在 RoI Pooling 的框架下进行了两步关键改进：
<ol>
<li>构建位置敏感特征图</li>
<li>按位置进行通道选择并池化</li>
</ol>
下面就来逐个展开：
<h2 id="21-特征图处理">2.1 特征图处理</h2>
在传统的 RoI Pooling 中，负责从原始图像中提取通用特征的主干网络 backbone 输出的 feature map 会被直接用于后续操作。
但在 PS RoI Pooling 中，会多出一个关键步骤：
<blockquote>
在原 feature map 上额外接一个 \(1 \times 1\) 卷积，用于生成“位置敏感特征图”。
</blockquote>
假设 backbone 输出为：
<div class="math display">\[H \times W \times C_{in}
\]</div>而我们希望最终得到的 RoI 划分后 bin 的数量是：
<div class="math display">\[k \times k
\]</div>同时任务中有 \(C\) 个类别，那么这个 \(1 \times 1\) 卷积的输出通道数将被设计为：
<div class="math display">\[C \times k \times k
\]</div>也就是说，最终得到的特征图尺寸为：
<div class="math display">\[H \times W \times (C \cdot k^2)
\]</div><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260424152457457-445112382.png" alt="image" loading="lazy">
如图所示，这里的关键在于：
<blockquote>
这 \(C \cdot k^2\) 个通道，是带有明确空间语义划分的通道。
</blockquote>
我们可以将其按类别进行分组：每个类别有自己的 \(k \times k\) 个通道，并且每个通道对应 RoI 中的一个固定空间位置。
举个例子，假设 \(k = 2\) ，当前类别为 “人”，那么该类别对应的 4 个通道，就可以理解为：
<table>
<thead>
<tr>
<th>通道编号</th>
<th>语义</th>
</tr>
</thead>
<tbody>
<tr>
<td>1</td>
<td>左上</td>
</tr>
<tr>
<td>2</td>
<td>右上</td>
</tr>
<tr>
<td>3</td>
<td>左下</td>
</tr>
<tr>
<td>4</td>
<td>右下</td>
</tr>
</tbody>
</table>
总结这一步的逻辑如下：
<blockquote>
通过 \(1 \times 1\) 卷积，在不改变空间分辨率的前提下，对通道进行线性重组，使其具备位置语义。
</blockquote>
<h2 id="22-通道池化">2.2 通道池化</h2>
现在，我们完成了位置敏感特征图的构建，并且知道了每一个通道都对应于一个类别的 bin ，很容易想到这一步的改进：
<blockquote>
每个 bin 不再使用“所有通道”，而是只使用“与自身位置对应的那一个通道”。
</blockquote>
我们继续上一步的例子来说明： 
此时对于“人”类别，我们已经得到了 4 个位置敏感通道：
<table>
<thead>
<tr>
<th>bin 位置</th>
<th>对应通道</th>
</tr>
</thead>
<tbody>
<tr>
<td>左上 \((0,0)\)</td>
<td>channel 1</td>
</tr>
<tr>
<td>右上 \((0,1)\)</td>
<td>channel 2</td>
</tr>
<tr>
<td>左下 \((1,0)\)</td>
<td>channel 3</td>
</tr>
<tr>
<td>右下 \((1,1)\)</td>
<td>channel 4</td>
</tr>
</tbody>
</table>
而到了这里，具体的池化逻辑是这样的：
<blockquote>
每一个 bin 的特征计算，只在“对应的那一张位置敏感特征图”上进行，并且只取该 bin 区域的值，进行池化。
</blockquote>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260424152510327-1692823065.png" alt="image" loading="lazy">
到在完成所有 \(k \times k\) 个 bin 的计算后，对每个类别，我们都会得到一个 \(k \times k\) 大小结构化的输出。
不同于原始 RoI Pooling ，现在的结果不再是“混合语义特征”，而是具有明确语义：每个空间位置对当前类别的独立响应。
实际上，原论文最后还有一步改进，就是将最后聚合的全连接层直接改为投票：将所有位置的响应进行累加或平均，得到该类别的最终得分。
<div class="math display">\[score_c = \sum_{i,j} y_c(i,j)
\]</div>并不复杂，简单理解就是：在输出绑定空间位置的情况下，每个元素都有明确语义：局部判断，我们直接使用它们合成全局判断就好。不再多说了。
<h1 id="3rs-roi-pooling-和-roi-align">3.RS RoI Pooling 和 RoI Align</h1>
总结来说，RS RoI Pooling 通过对特征图通道数的设计实现了一种较原始的“内容感知”。 
以此，我们再对比来看看 RoI Align 。
首先要说明的是时间线：RoI Align 的提出晚于 RS RoI Pooling 1 年。 
R-FCN 在设计上也并未引入精细的几何对齐机制，而是通过通道绑定实现空间对齐。 
而 RoI Align 的出现，则是因为在实例分割等任务中，像素级误差会显著影响边界质量。
这里很容易有这样一个想法：
<blockquote>
看起来二者好像并不冲突，能不能就像 Adam组合Momentum和RMSprop一样，合成二者得到更好的方法？
</blockquote>
可惜，答案是否定的。 
问题在于，这两种方法对“空间”有完全不同的定义。
PS RoI Pooling 实际上是在做一件事：把 RoI 内部的空间划分，直接绑定到通道结构上。 
本质上来说，这种逻辑划分的空间结构是“离散的”，每个 bin 被确定在固定语义位置，通道划分明确。
而提出 RoI Align 的 Mask R-CNN 则相反： 空间必须保持连续性，任何离散化都会带来误差。 
如果我们尝试“先 RoI Align，再 PS Pooling”，会导致通道和空间位置的硬绑定关系被破坏。因为插值之后，一个位置的特征就会来自多个邻域，不再严格属于某一个空间 bin。 
反过来，如果“先 PS Pooling 再 Align”空间已经被映射到通道，再做几何插值虽然可以实现，但现在的特征已经不再依靠“连续性”了，意义不大。 
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260424151034350-488325549.png" alt="image.png" loading="lazy">
因此，在实际工程中，二者往往不会一起使用。
于此同时，这两种方法虽然分别优化了不同问题，但也都存在各自局限：
<ul>
<li>RS RoI Pooling：虽然实现了初版的“内容感知”，但结构仍是人为固定划分的。</li>
<li>RoI Align：几何对齐也是手工设计的插值规则。</li>
</ul>
也就是说：采样规则和结构仍然是静态的，并不能“自适应”不同的内容。 
自然而然地，一种最符合深度学习思想的逻辑出现了：
<blockquote>
如果空间结构本身是复杂变化的，那能不能让“采样方式”也变成可学习的？
</blockquote>
这便是下一篇内容。 
来源：https://www.cnblogs.com/Goblinscholar/p/19923508

頁: [1]

圆梦公社's Archiver

深度学习进阶（十一）Position-Sensitive RoI Pooling