深度学习进阶(十) RoI Align
<p>在上一篇中,我们已经明确指出:</p><blockquote>
<p><strong>RoI Pooling 的核心问题并不在于 Pooling 本身,而在于“取整导致的量化误差”。</strong></p>
</blockquote>
<p>那么,一个非常直接的思路就是:</p>
<blockquote>
<p><strong>既然误差来自“取整”,那就不要取整。</strong></p>
</blockquote>
<p align="center">
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144216343-1178851321.png" alt="image">
</p>
<p>这正是 RoI Align 的出发点。</p>
<h1 id="1-roi-align-的提出和思想">1. RoI Align 的提出和思想</h1>
<p>RoI Align 来源于 17 年提出的经典目标检测与实例分割模型:<strong><em>Mask R-CNN</em></strong>.<br>
在这篇论文中,作者明确指出:<strong>RoI Pooling 的量化误差会显著影响像素级任务。</strong></p>
<p>因此,他们提出了一种针对性的改进:</p>
<blockquote>
<p><strong>不改变整体框架,只修正对齐方式。</strong></p>
</blockquote>
<p>RoI Align 核心思想也并不复杂,总结来说就是:</p>
<blockquote>
<p><strong>取消 RoI 边界映射和 bin 分割中的取整,保留所有浮点数表示的边界,用双线性插值来获取采样点的特征值。</strong></p>
</blockquote>
<p>下面来详细展开:</p>
<h1 id="2-roi-align-的具体改进">2. RoI Align 的具体改进</h1>
<h2 id="21-候选框映射">2.1 候选框映射</h2>
<p>在这一步的改进较为简单,就是<strong>直接省去取整步骤</strong>:<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144214486-405237922.png" alt="image.png" loading="lazy"></p>
<h2 id="22-划分子区域">2.2 划分子区域</h2>
<p>这一步和原本的 RoI Pooling 没有区别,只是候选框并没有取整。<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144355918-861477221.png" alt="image.png" loading="lazy"></p>
<p>我们直接用图中的例子来演示完整逻辑,设 <span class="math inline">\(k \times k = 2 \times 2\)</span> ,已知 RoI 为:</p>
<p></p><div class="math display">\[(x_1, y_1, x_2, y_2) = (0.8, 0, 2.4, 4.5)
\]</div><p></p><p>首先计算 RoI 在特征图上的宽和高:</p>
<p></p><div class="math display">\[w = x_2 - x_1 = 2.4 - 0.8 = 1.6,h = y_2 - y_1= 4.5
\]</div><p></p><p>因为要划分为 <span class="math inline">\(2 \times 2\)</span>,计算得到每个 bin 的尺寸为:</p>
<p></p><div class="math display">\[w_{bin} = \frac{w}{2} = \frac{1.6}{2} = 0.8,h_{bin} = \frac{h}{2} = \frac{4.5}{2} = 2.25
\]</div><p></p><p>最终,四个子区域划分如下:</p>
<table>
<thead>
<tr>
<th>位置</th>
<th>x 范围</th>
<th>y 范围</th>
</tr>
</thead>
<tbody>
<tr>
<td>左上 (0,0)</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
<tr>
<td>右上 (0,1)</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
<tr>
<td>左下 (1,0)</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
<tr>
<td>右下 (1,1)</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
</tbody>
</table>
<p>现在,<strong>整个 RoI 被均匀、连续地切分,没有任何量化误差。</strong><br>
但新的问题是:</p>
<blockquote>
<p><strong>连续划分的 bin 并不和特征图网格完全贴合,要如何取样进行下一步池化?</strong></p>
</blockquote>
<p>这便是 RoI Align 的核心内容,关键点只有一句话:</p>
<blockquote>
<p><strong>既然采样点不再落在整数网格上,那就必须“估算”这个位置的特征值。</strong></p>
</blockquote>
<h2 id="23-线性插值和双线性插值">2.3 线性插值和双线性插值</h2>
<p>插值是<strong>使用离散点估计连续值</strong>的常见方法,我们先简单介绍一下。<br>
假设在一条数轴上,我们已知两个点的值:</p>
<p></p><div class="math display">\[f(1)=1,f(2)=2
\]</div><p></p><p><strong>现在我们想求一个中间位置 <span class="math inline">\(x=1.3\)</span> 的值,该怎么办?</strong><br>
直觉上,这个点更接近 1,因此它的值应该更偏向 <span class="math inline">\(f(1)\)</span>。</p>
<p>所以,这里线性插值的公式就是:</p>
<p></p><div class="math display">\[f(x) = (1 - \lambda) \cdot f(1) + \lambda \cdot f(2)
\]</div><p></p><p>其中:</p>
<p></p><div class="math display">\[\lambda = x - 1= 0.3
\]</div><p></p><p>最终得到估计值:</p>
<p></p><div class="math display">\[f(1.3) = 0.7 \cdot f(1) + 0.3 \cdot f(2)=1.3
\]</div><p></p><p>这便是一维线性插值的逻辑,由此我们推广到二维的双线性插值:<br>
特征图是一个<strong>二维离散网格</strong>,而我们的采样点 <span class="math inline">\((x, y)\)</span> 通常是浮点数,比如:</p>
<p></p><div class="math display">\[(x, y) = (1.3, 2.7)
\]</div><p></p><p>就像我们现在遇到的,<strong>这个点不会正好落在某个像素中心,而是落在一个“格子内部”。</strong><br>
其周围最近的四个整数点是(以视觉任务中惯例的左上角为原点):</p>
<ol>
<li>左上:<span class="math inline">\((x_1, y_1) = (1, 2)\)</span></li>
<li>右上:<span class="math inline">\((x_2, y_1) = (2, 2)\)</span></li>
<li>左下:<span class="math inline">\((x_1, y_2) = (1, 3)\)</span></li>
<li>右下:<span class="math inline">\((x_2, y_2) = (2, 3)\)</span></li>
</ol>
<p>双线性插值本质是:<strong>先横向插值,再纵向插值</strong>(或者反过来也一样)。</p>
<p>于是,我们定义:</p>
<p></p><div class="math display">\[dx = x - x_1,\quad dy = y - y_1
\]</div><p></p><p>在本例中不难得到:</p>
<p></p><div class="math display">\[dx = 0.3,\quad dy = 0.7
\]</div><p></p><p><strong>最终结果是四个点的加权和:</strong></p>
<p></p><div class="math display">\[f(x, y) =
(1 - dx)(1 - dy) \cdot f(x_1, y_1)
+ dx(1 - dy) \cdot f(x_2, y_1)
+ (1 - dx)dy \cdot f(x_1, y_2)+dxdy \cdot f(x_2, y_2)
\]</div><p></p><p>总结双线性插值的逻辑如下:</p>
<blockquote>
<p><strong>一个采样点的值,是由它周围四个网格点“按距离加权平均”得到的。越近权重越大,越远权重越小,四个权重加起来刚好为 1 。</strong></p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144212872-345083601.png" alt="image.png" loading="lazy"><br>
到这里,就可以明白 RoI Align 的采样思路了。</p>
<h2 id="24-采样每个子区域">2.4 采样每个子区域</h2>
<p>现在,我们已经有了划分好的连续子区域,这些 bin 不像取整划分一样直接固定好了采样点。因此问题变成了:</p>
<blockquote>
<p><strong>一个 bin 内,到怎么取点?取多少个点?</strong></p>
</blockquote>
<p>这就引出了新的超参数:<strong>采样率(sampling ratio),或者采样密度</strong>。</p>
<p>具体展开,对于每个 bin,在两个方向分别定义采样率:</p>
<p></p><div class="math display">\[r_x,r_y
\]</div><p></p><p>我们可以手动指定两个方向的采样率,在原论文的设计中,每个 bin 内固定为 4 个规则采样点。但现代更常见的是<strong>自适应采样:</strong></p>
<p></p><div class="math display">\[r_x = \lceil w_{bin} \rceil,\quad r_y = \lceil h_{bin} \rceil
\]</div><p></p><p>得到采样率后,我们就可以以此划分<strong>该方向的步长</strong>:</p>
<p></p><div class="math display">\[step = \frac{length}{r}
\]</div><p></p><p>最终,我们以<strong>等分加中心偏移</strong>的形式得到采样点的位置:</p>
<p></p><div class="math display">\[x_i = x_{start} + (i + 0.5)\cdot step
\]</div><p></p><p></p><div class="math display">\[y_i = y_{start} + (i + 0.5)\cdot step
\]</div><p></p><p><strong>这种设计是为了让点“取中心”,不然不同 bin 的采样点就会在边界处发生重合,在偶数采样率时还会发生不对称取点的情况。</strong> 在下面的例子里就可以直观感受到这点。<br>
先总结采样逻辑如下:</p>
<blockquote>
<p><strong>直接对 bin 的尺寸向上取整,作为该方向的采样率。以此在 x 和 y 方向分别均匀划分,形成规则的 <span class="math inline">\(r_x \times r_y\)</span> 个采样点。</strong></p>
</blockquote>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144212225-1510204512.png" alt="image.png" loading="lazy"></p>
<p>我们用之前得到的<strong>左上角 bin</strong> 作为例子:</p>
<table>
<thead>
<tr>
<th>位置</th>
<th>x 范围</th>
<th>y 范围</th>
</tr>
</thead>
<tbody>
<tr>
<td>左上</td>
<td><span class="math inline">\(\)</span></td>
<td><span class="math inline">\(\)</span></td>
</tr>
</tbody>
</table>
<p>按照自适应策略:</p>
<p></p><div class="math display">\[r_x = \lceil w_{bin} \rceil = \lceil 0.8 \rceil = 1 ,r_y = \lceil h_{bin} \rceil = \lceil 2.25 \rceil = 3
\]</div><p></p><p>也就是说,这个 bin 在 x 方向只取 1 个点,在 y 方向取 3 个点。<br>
继续计算步长:</p>
<p></p><div class="math display">\[step_x = \frac{0.8}{1} = 0.8,step_y = \frac{2.25}{3} = 0.75
\]</div><p></p><p>代入公式得到最终结果:</p>
<p></p><div class="math display">\[x_0 = 0.8 + (0 + 0.5)\cdot 0.8 = 1.2
\]</div><p></p><p></p><div class="math display">\[y_0 = 0 + (0 + 0.5)\cdot 0.75 = 0.375
\]</div><p></p><p></p><div class="math display">\[y_1 = 0 + (1 + 0.5)\cdot 0.75 = 1.125
\]</div><p></p><p></p><div class="math display">\[y_2 = 0 + (2 + 0.5)\cdot 0.75 = 1.875
\]</div><p></p><p>因此,这个 bin 内的采样点就是:</p>
<table>
<thead>
<tr>
<th>点编号</th>
<th>坐标</th>
</tr>
</thead>
<tbody>
<tr>
<td>1</td>
<td>(1.2, 0.375)</td>
</tr>
<tr>
<td>2</td>
<td>(1.2, 1.125)</td>
</tr>
<tr>
<td>3</td>
<td>(1.2, 1.875)</td>
</tr>
</tbody>
</table>
<h2 id="25-最终输出">2.5 最终输出</h2>
<p>到这里,我们就只剩下最后一步了:<strong>对所有采样点进行双线性插值得到特征值,池化聚合输出。</strong><br>
<img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144212696-45271912.png" alt="image.png" loading="lazy"></p>
<p>这就是 RoI Align 的完整逻辑,我们以此<strong>消除了“坐标量化”这个人为错误来源。</strong><br>
要注意的是:<strong>不能说 RoI Align 消除了量化误差。</strong><br>
因为仍然存在模型本身表达能力限制、插值近似误差等“不可避免但可控”的误差。</p>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202604/3708248-20260421144215283-1238569700.png" alt="d9037aff-61ef-4cab-94a2-720efe38d4c6.png" loading="lazy"></p>
<h1 id="3roi-align-的改进方向">3.RoI Align 的改进方向</h1>
<p>现在,我们已经解决了一个核心问题:<strong>通过去除取整操作并引入双线性插值,使 RoI 从离散坐标空间回到了连续坐标空间,从而显著缓解了量化误差带来的不稳定性。</strong></p>
<p>但实际上,RoI Align 仍然存在一个隐含假设:<strong>bin 内部的空间结构是相对平滑且均匀的。</strong><br>
这样,每个 bin 内的特征才可以通过“均匀采样 + 简单平均”来充分表示。</p>
<p>可是,这一假设并不总是成立。物体边界、纹理变化等内容往往在局部区域内呈现明显的不均匀性。<br>
此时,<strong>“固定采样数量 + 均匀分布”的策略仍然可能带来信息损失</strong>,尤其是在目标尺度变化较大或结构复杂的情况下。</p>
<p>因此,一个新的想法就出现了:</p>
<blockquote>
<p><strong>是否可以让 RoI 内部的采样过程,具备一定的结构感知能力?</strong></p>
</blockquote>
<p>例如,在同一个 bin 中,如果某一部分区域显著包含目标信息,而另一部分主要为背景,那么理想情况下,采样分布应当能够对这种差异进行响应,而不是一视同仁地均匀取样。</p>
<p>这便为后续一系列改进方法提供了动机。</p><br><br>
来源:https://www.cnblogs.com/Goblinscholar/p/19901328
頁:
[1]