深度学习进阶（十五）通道注意力 SE

张御發表於 2026-5-3 22:23:00

深度学习进阶（十五）通道注意力 SE

至此，在之前的内容里，我们已经介绍了传统卷积网络和 Transformer 架构两条路线在 CV 任务中的发展研究。 
实际上，我们可以这样总结一下：
<blockquote>
无论是 Transformer 的注意力机制，还是 CNN 的诸多创新，它们其实都在回答同一个问题：模型应该关注哪里（空间）和关注什么（通道）。
</blockquote>
也可以说的再广泛一些：大多数 CV 任务的核心就是学习找到数据里的“特征在哪”和“特征是什么”。 
而位置体现在空间信息中，特征则体现在通道信息中。
我们在之前的内容里所介绍的内容，基本都是围绕前者而展开的：自注意力、窗口注意力、可变形卷积，本质上都是在让模型更灵活地聚焦空间位置。
而后者，我们却没有太系统的展开，想象这样一个问题：
<blockquote>
卷积得到的特征图中，不同通道代表着不同的语义特征，边缘、纹理或特定颜色。但所有通道被一视同仁地传到下一层，无论这个通道当前是否真的携带了有用信息。
</blockquote>
显然，我们又发现了新的优化空间。
于是，18 年的论文 Squeeze-and-Excitation Networks 便从这个问题出发，提出了一种轻量级的通道注意力机制，让网络能够显式地建模通道之间的依赖关系，并根据全局信息对每个通道的重要性进行重新校准。 
由于其结构简单、即插即用，时至今日 SE 模块仍然是计算机视觉中最常用的注意力模块之一。
<h1 id="1-通道注意力的核心思想">1. 通道注意力的核心思想</h1>
续接开头，我们知道： 
传统 CNN 在完成一次卷积后，输出的特征图是一个 \(H \times W \times C\) 的三维张量，其中 \(C\) 是通道数。这个张量会原封不动地传给下一层。
但实际情况是：在一次前向传播中，不同通道所携带的信息重要性完全不同。 
比如一张以猫为主体的图片，响应耳朵轮廓的通道可能比响应背景纹理的通道对分类更重要。 
因此，理想的做法是让网络学会：对当前任务重要的通道，给它更高的权重；不太重要的通道，适当抑制。
SE 模块的核心思想可以概括为：
<blockquote>
通过一个轻量级的子网络，自动学习每个通道的重要性权重，然后用这个权重重新调整原始特征图。
</blockquote>
而这个子网络的结构非常简洁，由三个操作组成：
<ol>
<li>Squeeze</li>
<li>Excitation</li>
<li>Scale</li>
</ol>
<img src="https://img2024.cnblogs.com/blog/3708248/202605/3708248-20260503221647459-1792127612.png" alt="image.png" loading="lazy"> 
下面我们逐一展开。
<h1 id="2-squeeze全局信息压缩">2. Squeeze：全局信息压缩</h1>
显然，要计算权重，我们的首要目标便是：为每个通道计算一个重要性分数。 
但问题是，卷积层的输出是一个 \(H \times W \times C\) 的张量，每个通道本身是一个二维特征图，而一个标量的重要性分数需要从整个二维空间中提取出来。 
也就是说，我们需要一种方式，把一整个二维空间的信息压缩成一个数值。
SE 选择的压缩方式非常简单：全局平均池化（Global Average Pooling，GAP）。 
原理非常简单：对于第 \(c\) 个通道的特征图 \(\mathbf{U}_c \in \mathbb{R}^{H \times W}\)，我们计算其所有空间位置的平均值：
<div class="math display">\[z_c = \frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} \mathbf{U}_c(i,j)
\]</div>对所有 \(C\) 个通道分别做一次 GAP，我们就得到了一组标量：
<div class="math display">\[\mathbf{z} = \in \mathbb{R}^{C}
\]</div><img src="https://img2024.cnblogs.com/blog/3708248/202605/3708248-20260503221836892-133349475.png" alt="image.png" loading="lazy">
这样一来，每个通道就被压缩成了一个标量值，它大致代表了该通道在整个空间上的响应强度。 
一个必定的道理是：压缩一定会带来信息损失。但在这里，是合理的。 
因为我们现在的目的不是保留空间结构，而是为每个通道产生一个整体的重要性估计。全局均值是一个相当有效的指标。
这便是第一步。
<h1 id="3-excitation通道权重的自适应学习">3. Excitation：通道权重的自适应学习</h1>
现在我们得到了每个通道的全局描述 \(\mathbf{z}\) ，下一步就是根据这个描述来生成每个通道的权重。 
面对这种情况，一个很直接也很常见的思路就是归一化：计算每个通道的响应在总和中的占比作为权重。 
但在这里并不合适，因为通道之间存在着复杂的非线性依赖关系，不能只看响应的数值大小来建模。
某些纹理通道可能响应很强，但对分类没用；某些语义通道响应很弱，反而很关键。 
此外，还有通道间可能存在依赖关系，比如 “边缘强、颜色弱，是目标 A” 这时的特征是组合体现的。 
单纯的归一化显然无法建模这些情况。
要实现自适应，显然还是要靠数据驱动。 
因此，SE 用一个两层的全连接网络，也就是一个 MLP 来完成这个映射，这个过程就是 Excitation：
<div class="math display">\[\mathbf{s} = \sigma\left( \mathbf{W}_2 \cdot \delta(\mathbf{W}_1 \mathbf{z} + \mathbf{b}_1) + \mathbf{b}_2 \right)
\]</div>其中：
<ol>
<li>\(\mathbf{W}_1 \in \mathbb{R}^{\frac{C}{r} \times C}\)：第一层全连接，降维。</li>
<li>\(\delta\)：ReLU 激活函数。</li>
<li>\(\mathbf{W}_2 \in \mathbb{R}^{C \times \frac{C}{r}}\)：第二层全连接，升维。</li>
<li>\(\sigma\)：Sigmoid 激活函数，将输出压缩到 \((0,1)\) 区间。</li>
</ol>
这里的 \(r\) 是一个降维比例（reduction ratio），是 SE 模块中唯一的超参数，通常取 16。 
<img src="https://img2024.cnblogs.com/blog/3708248/202605/3708248-20260503221642762-534928234.png" alt="image.png" loading="lazy">
除去通过激活函数引入非线性外，\(r\) 的设计其实也是为了控制参数量。 
如果直接从 \(C\) 映射到 \(C\)，那参数量就是 \(C \times C = C^2\)。当 \(C\) 很大时，这个参数量是不可接受的。 
所以设计为先降维到 \(\frac{C}{r}\) 再升维回来，这样参数量就变为：
<div class="math display">\[C \times \frac{C}{r} + \frac{C}{r} \times C = \frac{2C^2}{r}
\]</div>当 \(r=16\) 时，参数量直接降低到原来的 \(1/8\)。
用专业术语来说，这“两边宽，中间窄”的结构叫 bottleneck（瓶颈结构），它在减少参数量的同时，其实起到在低维空间逼迫网络只保留“最重要的信息” 的作用，可以提升模型对关键信息的表达能力,是现代深度网络中的核心结构之一。
自此，SE 的第二步我们也完成了。
<h1 id="4-scale权重应用">4. Scale：权重应用</h1>
得到了通道权重向量 \(\mathbf{s} \in \mathbb{R}^{C}\) 后，最后一步就是把这个权重应用到原始特征图上。
这一步非常简单：逐通道的标量乘法。（工程具体实现是靠广播） 
对第 \(c\) 个通道，将原始特征图 \(\mathbf{U}_c \in \mathbb{R}^{H \times W}\) 与对应的权重 \(s_c\) 相乘：
<div class="math display">\[\tilde{\mathbf{X}}_c = s_c \cdot \mathbf{U}_c
\]</div><img src="https://img2024.cnblogs.com/blog/3708248/202605/3708248-20260503222022308-506435727.png" alt="image.png" loading="lazy">
这样，每个通道被整体放大或缩小。\(s_c\) 越接近 1，该通道保留得越多；越接近 0，该通道被抑制得越强。 
最终，经过重新校准、调节通道注意力后的特征图 \(\tilde{\mathbf{X}}\) 被传递到下一层继续传播。 
这便是 SE 模块的完整逻辑。
你会发现，SE 模块和我们之前介绍的 DCN 有些类似，它不是独立的网络结构，而更像是一个“插件”，而且不必为卷积添加分支，更加自由。 
因此，它可以被插入到任何现有网络的任何位置，而不需要改变网络的整体结构。这种即插即用的特性是 SE 模块能够广泛应用的直接原因。
值得一提的是, SE 提出时，作者并没有将其称为“Attention”，这并不是因为它不具备注意力的本质，而是与当时研究趋势密切相关，18 年 Attention 的主要扩散阵地仍然在 NLP 内部。 
与此同时，当时视觉领域尚未形成统一的“注意力机制”范式，SE 的设计更偏向结构优化而非机制命名，因此没有显式使用 Attention 这一术语。
但从后来的发展看，SE 模块完全符合注意力机制的核心定义：通过数据驱动的方式，为特征分配不同权重。 
因此在后续工作中，它被自然归入“通道注意力”范畴，并成为诸多注意力模块的基础原型。 
来源：https://www.cnblogs.com/Goblinscholar/p/19969626

頁: [1]

圆梦公社's Archiver

深度学习进阶（十五）通道注意力 SE