深度学习进阶（十） RoI Align

风吹半夏 發表於 2026-4-21 14:45:00

<p>在上一篇中，我们已经明确指出：</p>
<blockquote>
<p><strong>RoI Pooling 的核心问题并不在于 Pooling 本身，而在于“取整导致的量化误差”。</strong></p>
</blockquote>
<p>那么，一个非常直接的思路就是：</p>
<blockquote>
<p><strong>既然误差来自“取整”，那就不要取整。</strong></p>
</blockquote>
<p align="center">
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144216343-1178851321.png" alt="image">
</p>
<p>这正是 RoI Align 的出发点。</p>
<h1 id="1-roi-align-的提出和思想">1. RoI Align 的提出和思想</h1>
<p>RoI Align 来源于 17 年提出的经典目标检测与实例分割模型：<strong><em>Mask R-CNN</em></strong>.<br>
在这篇论文中，作者明确指出：<strong>RoI Pooling 的量化误差会显著影响像素级任务。</strong></p>
<p>因此，他们提出了一种针对性的改进：</p>
<blockquote>
<p><strong>不改变整体框架，只修正对齐方式。</strong></p>
</blockquote>
<p>RoI Align 核心思想也并不复杂，总结来说就是：</p>
<blockquote>
<p><strong>取消 RoI 边界映射和 bin 分割中的取整，保留所有浮点数表示的边界，用双线性插值来获取采样点的特征值。</strong></p>
</blockquote>
<p>下面来详细展开：</p>
<h1 id="2-roi-align-的具体改进">2. RoI Align 的具体改进</h1>
<h2 id="21-候选框映射">2.1 候选框映射</h2>
<p>在这一步的改进较为简单，就是<strong>直接省去取整步骤</strong>：<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144214486-405237922.png" alt="image.png" loading="lazy"></p>
<h2 id="22-划分子区域">2.2 划分子区域</h2>
<p>这一步和原本的 RoI Pooling 没有区别，只是候选框并没有取整。<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144355918-861477221.png" alt="image.png" loading="lazy"></p>
<p>我们直接用图中的例子来演示完整逻辑，设 <span class="math inline">\(k \times k = 2 \times 2\)</span> ，已知 RoI 为：</p>
<p></p><div class="math display">\[(x_1, y_1, x_2, y_2) = (0.8, 0, 2.4, 4.5)
\]</div><p></p><p>首先计算 RoI 在特征图上的宽和高：</p>
<p></p><div class="math display">\[w = x_2 - x_1 = 2.4 - 0.8 = 1.6，h = y_2 - y_1= 4.5
\]</div><p></p><p>因为要划分为 <span class="math inline">\(2 \times 2\)</span>，计算得到每个 bin 的尺寸为：</p>
<p></p><div class="math display">\[w_{bin} = \frac{w}{2} = \frac{1.6}{2} = 0.8，h_{bin} = \frac{h}{2} = \frac{4.5}{2} = 2.25
\]</div><p></p><p>最终，四个子区域划分如下：</p>
<table>
<thead>
<tr>
<th>位置</th>
<th>x 范围</th>
<th>y 范围</th>
</tr>
</thead>
<tbody>
<tr>
<td>左上 (0,0)</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
<tr>
<td>右上 (0,1)</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
<tr>
<td>左下 (1,0)</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
<tr>
<td>右下 (1,1)</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
</tbody>
</table>
<p>现在，<strong>整个 RoI 被均匀、连续地切分，没有任何量化误差。</strong><br>
但新的问题是：</p>
<blockquote>
<p><strong>连续划分的 bin 并不和特征图网格完全贴合，要如何取样进行下一步池化？</strong></p>
</blockquote>
<p>这便是 RoI Align 的核心内容，关键点只有一句话：</p>
<blockquote>
<p><strong>既然采样点不再落在整数网格上，那就必须“估算”这个位置的特征值。</strong></p>
</blockquote>
<h2 id="23-线性插值和双线性插值">2.3 线性插值和双线性插值</h2>
<p>插值是<strong>使用离散点估计连续值</strong>的常见方法，我们先简单介绍一下。<br>
假设在一条数轴上，我们已知两个点的值：</p>
<p></p><div class="math display">\[f(1)=1,f(2)=2
\]</div><p></p><p><strong>现在我们想求一个中间位置 <span class="math inline">\(x=1.3\)</span> 的值，该怎么办？</strong><br>
直觉上，这个点更接近 1，因此它的值应该更偏向 <span class="math inline">\(f(1)\)</span>。</p>
<p>所以，这里线性插值的公式就是：</p>
<p></p><div class="math display">\[f(x) = (1 - \lambda) \cdot f(1) + \lambda \cdot f(2)
\]</div><p></p><p>其中：</p>
<p></p><div class="math display">\[\lambda = x - 1= 0.3
\]</div><p></p><p>最终得到估计值：</p>
<p></p><div class="math display">\[f(1.3) = 0.7 \cdot f(1) + 0.3 \cdot f(2)=1.3
\]</div><p></p><p>这便是一维线性插值的逻辑，由此我们推广到二维的双线性插值：<br>
特征图是一个<strong>二维离散网格</strong>，而我们的采样点 <span class="math inline">\((x, y)\)</span> 通常是浮点数，比如：</p>
<p></p><div class="math display">\[(x, y) = (1.3, 2.7)
\]</div><p></p><p>就像我们现在遇到的，<strong>这个点不会正好落在某个像素中心，而是落在一个“格子内部”。</strong><br>
其周围最近的四个整数点是（以视觉任务中惯例的左上角为原点）：</p>
<ol>
<li>左上：<span class="math inline">\((x_1, y_1) = (1, 2)\)</span></li>
<li>右上：<span class="math inline">\((x_2, y_1) = (2, 2)\)</span></li>
<li>左下：<span class="math inline">\((x_1, y_2) = (1, 3)\)</span></li>
<li>右下：<span class="math inline">\((x_2, y_2) = (2, 3)\)</span></li>
</ol>
<p>双线性插值本质是：<strong>先横向插值，再纵向插值</strong>（或者反过来也一样）。</p>
<p>于是，我们定义：</p>
<p></p><div class="math display">\[dx = x - x_1,\quad dy = y - y_1
\]</div><p></p><p>在本例中不难得到：</p>
<p></p><div class="math display">\[dx = 0.3,\quad dy = 0.7
\]</div><p></p><p><strong>最终结果是四个点的加权和：</strong></p>
<p></p><div class="math display">\[f(x, y) =
(1 - dx)(1 - dy) \cdot f(x_1, y_1)
+ dx(1 - dy) \cdot f(x_2, y_1)
+ (1 - dx)dy \cdot f(x_1, y_2)+dxdy \cdot f(x_2, y_2)
\]</div><p></p><p>总结双线性插值的逻辑如下：</p>
<blockquote>
<p><strong>一个采样点的值，是由它周围四个网格点“按距离加权平均”得到的。越近权重越大，越远权重越小，四个权重加起来刚好为 1 。</strong></p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144212872-345083601.png" alt="image.png" loading="lazy"><br>
到这里，就可以明白 RoI Align 的采样思路了。</p>
<h2 id="24-采样每个子区域">2.4 采样每个子区域</h2>
<p>现在，我们已经有了划分好的连续子区域，这些 bin 不像取整划分一样直接固定好了采样点。因此问题变成了：</p>
<blockquote>
<p><strong>一个 bin 内，到怎么取点？取多少个点？</strong></p>
</blockquote>
<p>这就引出了新的超参数：<strong>采样率（sampling ratio），或者采样密度</strong>。</p>
<p>具体展开，对于每个 bin，在两个方向分别定义采样率：</p>
<p></p><div class="math display">\[r_x,r_y
\]</div><p></p><p>我们可以手动指定两个方向的采样率，在原论文的设计中，每个 bin 内固定为 4 个规则采样点。但现代更常见的是<strong>自适应采样：</strong></p>
<p></p><div class="math display">\[r_x = \lceil w_{bin} \rceil,\quad r_y = \lceil h_{bin} \rceil
\]</div><p></p><p>得到采样率后，我们就可以以此划分<strong>该方向的步长</strong>：</p>
<p></p><div class="math display">\[step = \frac{length}{r}
\]</div><p></p><p>最终，我们以<strong>等分加中心偏移</strong>的形式得到采样点的位置：</p>
<p></p><div class="math display">\[x_i = x_{start} + (i + 0.5)\cdot step
\]</div><p></p><p></p><div class="math display">\[y_i = y_{start} + (i + 0.5)\cdot step
\]</div><p></p><p><strong>这种设计是为了让点“取中心”，不然不同 bin 的采样点就会在边界处发生重合，在偶数采样率时还会发生不对称取点的情况。</strong> 在下面的例子里就可以直观感受到这点。<br>
先总结采样逻辑如下：</p>
<blockquote>
<p><strong>直接对 bin 的尺寸向上取整，作为该方向的采样率。以此在 x 和 y 方向分别均匀划分，形成规则的 <span class="math inline">\(r_x \times r_y\)</span> 个采样点。</strong></p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144212225-1510204512.png" alt="image.png" loading="lazy"></p>
<p>我们用之前得到的<strong>左上角 bin</strong> 作为例子：</p>
<table>
<thead>
<tr>
<th>位置</th>
<th>x 范围</th>
<th>y 范围</th>
</tr>
</thead>
<tbody>
<tr>
<td>左上</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
</tbody>
</table>
<p>按照自适应策略：</p>
<p></p><div class="math display">\[r_x = \lceil w_{bin} \rceil = \lceil 0.8 \rceil = 1 ，r_y = \lceil h_{bin} \rceil = \lceil 2.25 \rceil = 3
\]</div><p></p><p>也就是说，这个 bin 在 x 方向只取 1 个点，在 y 方向取 3 个点。<br>
继续计算步长：</p>
<p></p><div class="math display">\[step_x = \frac{0.8}{1} = 0.8，step_y = \frac{2.25}{3} = 0.75
\]</div><p></p><p>代入公式得到最终结果：</p>
<p></p><div class="math display">\[x_0 = 0.8 + (0 + 0.5)\cdot 0.8 = 1.2
\]</div><p></p><p></p><div class="math display">\[y_0 = 0 + (0 + 0.5)\cdot 0.75 = 0.375
\]</div><p></p><p></p><div class="math display">\[y_1 = 0 + (1 + 0.5)\cdot 0.75 = 1.125
\]</div><p></p><p></p><div class="math display">\[y_2 = 0 + (2 + 0.5)\cdot 0.75 = 1.875
\]</div><p></p><p>因此，这个 bin 内的采样点就是：</p>
<table>
<thead>
<tr>
<th>点编号</th>
<th>坐标</th>
</tr>
</thead>
<tbody>
<tr>
<td>1</td>
<td>(1.2, 0.375)</td>
</tr>
<tr>
<td>2</td>
<td>(1.2, 1.125)</td>
</tr>
<tr>
<td>3</td>
<td>(1.2, 1.875)</td>
</tr>
</tbody>
</table>
<h2 id="25-最终输出">2.5 最终输出</h2>
<p>到这里，我们就只剩下最后一步了：<strong>对所有采样点进行双线性插值得到特征值，池化聚合输出。</strong><br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144212696-45271912.png" alt="image.png" loading="lazy"></p>
<p>这就是 RoI Align 的完整逻辑，我们以此<strong>消除了“坐标量化”这个人为错误来源。</strong><br>
要注意的是：<strong>不能说 RoI Align 消除了量化误差。</strong><br>
因为仍然存在模型本身表达能力限制、插值近似误差等“不可避免但可控”的误差。</p>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144215283-1238569700.png" alt="d9037aff-61ef-4cab-94a2-720efe38d4c6.png" loading="lazy"></p>
<h1 id="3roi-align-的改进方向">3.RoI Align 的改进方向</h1>
<p>现在，我们已经解决了一个核心问题：<strong>通过去除取整操作并引入双线性插值，使 RoI 从离散坐标空间回到了连续坐标空间，从而显著缓解了量化误差带来的不稳定性。</strong></p>
<p>但实际上，RoI Align 仍然存在一个隐含假设：<strong>bin 内部的空间结构是相对平滑且均匀的。</strong><br>
这样，每个 bin 内的特征才可以通过“均匀采样 + 简单平均”来充分表示。</p>
<p>可是，这一假设并不总是成立。物体边界、纹理变化等内容往往在局部区域内呈现明显的不均匀性。<br>
此时，<strong>“固定采样数量 + 均匀分布”的策略仍然可能带来信息损失</strong>，尤其是在目标尺度变化较大或结构复杂的情况下。</p>
<p>因此，一个新的想法就出现了：</p>
<blockquote>
<p><strong>是否可以让 RoI 内部的采样过程，具备一定的结构感知能力？</strong></p>
</blockquote>
<p>例如，在同一个 bin 中，如果某一部分区域显著包含目标信息，而另一部分主要为背景，那么理想情况下，采样分布应当能够对这种差异进行响应，而不是一视同仁地均匀取样。</p>
<p>这便为后续一系列改进方法提供了动机。</p><br><br>
来源：https://www.cnblogs.com/Goblinscholar/p/19901328

頁: [1]

圆梦公社's Archiver

深度学习进阶（十） RoI Align