深度学习进阶(十五)通道注意力 SE
<p>至此,在之前的内容里,我们已经介绍了传统卷积网络和 Transformer 架构两条路线在 CV 任务中的发展研究。<br>实际上,我们可以这样总结一下:</p>
<blockquote>
<p><strong>无论是 Transformer 的注意力机制,还是 CNN 的诸多创新,它们其实都在回答同一个问题:模型应该关注哪里(空间)和关注什么(通道)。</strong></p>
</blockquote>
<p>也可以说的再广泛一些:<strong>大多数 CV 任务的核心就是学习找到数据里的“特征在哪”和“特征是什么”。</strong><br>
而位置体现在空间信息中,特征则体现在通道信息中。</p>
<p>我们在之前的内容里所介绍的内容,基本都是围绕前者而展开的:自注意力、窗口注意力、可变形卷积,本质上都是在让模型更灵活地聚焦空间位置。</p>
<p>而后者,我们却没有太系统的展开,想象这样一个问题:</p>
<blockquote>
<p><strong>卷积得到的特征图中,不同通道代表着不同的语义特征,边缘、纹理或特定颜色。但所有通道被一视同仁地传到下一层,无论这个通道当前是否真的携带了有用信息。</strong></p>
</blockquote>
<p>显然,我们又发现了新的优化空间。</p>
<p>于是,18 年的论文 <strong><em>Squeeze-and-Excitation Networks</em></strong> 便从这个问题出发,提出了一种轻量级的<strong>通道注意力机制</strong>,让网络能够<strong>显式地建模通道之间的依赖关系</strong>,并根据全局信息对每个通道的重要性进行重新校准。<br>
<strong>由于其结构简单、即插即用,时至今日 SE 模块仍然是计算机视觉中最常用的注意力模块之一。</strong></p>
<h1 id="1-通道注意力的核心思想">1. 通道注意力的核心思想</h1>
<p>续接开头,我们知道:<br>
传统 CNN 在完成一次卷积后,输出的特征图是一个 <span class="math inline">\(H \times W \times C\)</span> 的三维张量,其中 <span class="math inline">\(C\)</span> 是通道数。这个张量会原封不动地传给下一层。</p>
<p>但实际情况是:<strong>在一次前向传播中,不同通道所携带的信息重要性完全不同</strong>。<br>
比如一张以猫为主体的图片,<strong>响应耳朵轮廓的通道可能比响应背景纹理的通道对分类更重要</strong>。<br>
因此,理想的做法是让网络学会:对当前任务重要的通道,给它更高的权重;不太重要的通道,适当抑制。</p>
<p>SE 模块的核心思想可以概括为:</p>
<blockquote>
<p><strong>通过一个轻量级的子网络,自动学习每个通道的重要性权重,然后用这个权重重新调整原始特征图。</strong></p>
</blockquote>
<p>而这个子网络的结构非常简洁,由三个操作组成:</p>
<ol>
<li><strong>Squeeze</strong></li>
<li><strong>Excitation</strong></li>
<li><strong>Scale</strong></li>
</ol>
<p><img src="https://img2024.cnblogs.com/blog/3708248/202605/3708248-20260503221647459-1792127612.png" alt="image.png" loading="lazy"><br>
下面我们逐一展开。</p>
<h1 id="2-squeeze全局信息压缩">2. Squeeze:全局信息压缩</h1>
<p>显然,要计算权重,我们的首要目标便是:<strong>为每个通道计算一个重要性分数</strong>。<br>
但问题是,卷积层的输出是一个 <span class="math inline">\(H \times W \times C\)</span> 的张量,<strong>每个通道本身是一个二维特征图</strong>,而一个标量的重要性分数需要从整个二维空间中提取出来。<br>
也就是说,我们需要一种方式,<strong>把一整个二维空间的信息压缩成一个数值</strong>。</p>
<p>SE 选择的压缩方式非常简单:<strong>全局平均池化(Global Average Pooling,GAP)</strong>。<br>
原理非常简单:对于第 <span class="math inline">\(c\)</span> 个通道的特征图 <span class="math inline">\(\mathbf{U}_c \in \mathbb{R}^{H \times W}\)</span>,我们计算其所有空间位置的平均值:</p>
<p></p><div class="math display">\[z_c = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} \mathbf{U}_c(i,j)
\]</div><p></p><p>对所有 <span class="math inline">\(C\)</span> 个通道分别做一次 GAP,我们就得到了一组标量:</p>
<p></p><div class="math display">\[\mathbf{z} = \in \mathbb{R}^{C}
\]</div><p></p><p><img src="https://img2024.cnblogs.com/blog/3708248/202605/3708248-20260503221836892-133349475.png" alt="image.png" loading="lazy"></p>
<p>这样一来,每个通道就被压缩成了一个标量值,它<strong>大致代表了该通道在整个空间上的响应强度</strong>。<br>
一个必定的道理是:压缩一定会带来信息损失。但在这里,是合理的。<br>
因为我们现在的目的不是保留空间结构,而是<strong>为每个通道产生一个整体的重要性估计</strong>。全局均值是一个相当有效的指标。</p>
<p>这便是第一步。</p>
<h1 id="3-excitation通道权重的自适应学习">3. Excitation:通道权重的自适应学习</h1>
<p>现在我们得到了每个通道的全局描述 <span class="math inline">\(\mathbf{z}\)</span> ,下一步就是<strong>根据这个描述来生成每个通道的权重</strong>。<br>
面对这种情况,一个很直接也很常见的思路就是归一化:计算每个通道的响应在总和中的占比作为权重。<br>
但在这里并不合适,<strong>因为通道之间存在着复杂的非线性依赖关系,不能只看响应的数值大小来建模。</strong></p>
<p>某些纹理通道可能响应很强,但对分类没用;某些语义通道响应很弱,反而很关键。<br>
此外,还有通道间可能存在依赖关系,比如 “边缘强、颜色弱,是目标 A” 这时的特征是组合体现的。<br>
单纯的归一化显然无法建模这些情况。</p>
<p><strong>要实现自适应,显然还是要靠数据驱动。</strong><br>
因此,SE 用一个<strong>两层的全连接网络</strong>,也就是一个 MLP 来完成这个映射,这个过程就是 Excitation:</p>
<p></p><div class="math display">\[\mathbf{s} = \sigma\left( \mathbf{W}_2 \cdot \delta(\mathbf{W}_1 \mathbf{z} + \mathbf{b}_1) + \mathbf{b}_2 \right)
\]</div><p></p><p>其中:</p>
<ol>
<li><span class="math inline">\(\mathbf{W}_1 \in \mathbb{R}^{\frac{C}{r} \times C}\)</span>:第一层全连接,<strong>降维</strong>。</li>
<li><span class="math inline">\(\delta\)</span>:ReLU 激活函数。</li>
<li><span class="math inline">\(\mathbf{W}_2 \in \mathbb{R}^{C \times \frac{C}{r}}\)</span>:第二层全连接,<strong>升维</strong>。</li>
<li><span class="math inline">\(\sigma\)</span>:Sigmoid 激活函数,将输出压缩到 <span class="math inline">\((0,1)\)</span> 区间。</li>
</ol>
<p>这里的 <span class="math inline">\(r\)</span> 是一个<strong>降维比例</strong>(reduction ratio),是 SE 模块中唯一的超参数,通常取 16。<br>
<img src="https://img2024.cnblogs.com/blog/3708248/202605/3708248-20260503221642762-534928234.png" alt="image.png" loading="lazy"></p>
<p>除去通过激活函数引入非线性外,<span class="math inline">\(r\)</span> 的设计其实也是为了<strong>控制参数量。</strong><br>
如果直接从 <span class="math inline">\(C\)</span> 映射到 <span class="math inline">\(C\)</span>,那参数量就是 <span class="math inline">\(C \times C = C^2\)</span>。当 <span class="math inline">\(C\)</span> 很大时,这个参数量是不可接受的。<br>
所以设计为先降维到 <span class="math inline">\(\frac{C}{r}\)</span> 再升维回来,这样参数量就变为:</p>
<p></p><div class="math display">\[C \times \frac{C}{r} + \frac{C}{r} \times C = \frac{2C^2}{r}
\]</div><p></p><p>当 <span class="math inline">\(r=16\)</span> 时,参数量直接降低到原来的 <span class="math inline">\(1/8\)</span>。</p>
<p>用专业术语来说,这“两边宽,中间窄”的结构叫 <strong>bottleneck(瓶颈结构)</strong>,它在减少参数量的同时,其实起到<strong>在低维空间逼迫网络只保留“最重要的信息”</strong> 的作用,可以提升模型对关键信息的表达能力,是现代深度网络中的核心结构之一。</p>
<p>自此,SE 的第二步我们也完成了。</p>
<h1 id="4-scale权重应用">4. Scale:权重应用</h1>
<p>得到了通道权重向量 <span class="math inline">\(\mathbf{s} \in \mathbb{R}^{C}\)</span> 后,最后一步就是把这个权重应用到原始特征图上。</p>
<p>这一步非常简单:<strong>逐通道的标量乘法</strong>。(工程具体实现是靠广播)<br>
对第 <span class="math inline">\(c\)</span> 个通道,将原始特征图 <span class="math inline">\(\mathbf{U}_c \in \mathbb{R}^{H \times W}\)</span> 与对应的权重 <span class="math inline">\(s_c\)</span> 相乘:</p>
<p></p><div class="math display">\[\tilde{\mathbf{X}}_c = s_c \cdot \mathbf{U}_c
\]</div><p></p><p><img src="https://img2024.cnblogs.com/blog/3708248/202605/3708248-20260503222022308-506435727.png" alt="image.png" loading="lazy"></p>
<p>这样,<strong>每个通道被整体放大或缩小</strong>。<span class="math inline">\(s_c\)</span> 越接近 1,该通道保留得越多;越接近 0,该通道被抑制得越强。<br>
最终,经过重新校准、调节通道注意力后的特征图 <span class="math inline">\(\tilde{\mathbf{X}}\)</span> 被传递到下一层继续传播。<br>
这便是 SE 模块的完整逻辑。</p>
<p>你会发现,SE 模块和我们之前介绍的 DCN 有些类似,它不是独立的网络结构,而更像是一个“插件”,而且不必为卷积添加分支,更加自由。<br>
因此,它可以被插入到任何现有网络的任何位置,而不需要改变网络的整体结构。这种<strong>即插即用</strong>的特性是 SE 模块能够广泛应用的直接原因。</p>
<p>值得一提的是, SE 提出时,作者并没有将其称为“Attention”,这并不是因为它不具备注意力的本质,而是与当时研究趋势密切相关,18 年 Attention 的主要扩散阵地仍然在 NLP 内部。<br>
与此同时,当时视觉领域尚未形成统一的“注意力机制”范式,SE 的设计更偏向结构优化而非机制命名,因此没有显式使用 Attention 这一术语。</p>
<p>但从后来的发展看,SE 模块完全符合注意力机制的核心定义:<strong>通过数据驱动的方式,为特征分配不同权重。</strong><br>
因此在后续工作中,它被自然归入“通道注意力”范畴,并成为诸多注意力模块的基础原型。</p><br><br>
来源:https://www.cnblogs.com/Goblinscholar/p/19969626
頁:
[1]