娱乐透视 發表於 2026-3-19 11:36:00

ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式

<blockquote data-first-child="">作者: vivo BlueImage Lab<br><strong>摘要:</strong><br>我们针对于单步SD的超分模型容易出现幻觉问题,提出了信而有证参考超分新范式,基于单步扩散模型构建,首先通过注意力机制引入参考信息,随后通过隐式相关性建模进行过滤与验证,对应的论文已被 ICLR2026 接收!<br>该工作由vivo BlueImage Lab,南开大学共同完成。</blockquote>
<p>项目主页:</p>
<p><span class="invisible">https://</span><span class="visible">github.com/vivoCameraRe</span><span class="invisible">search/AdaRefSR</span></p>
<h2><em>一、</em>研究背景:解决扩散模型的“幻觉”困境</h2>
<p>基于扩散模型的单图超分(SISR)虽然能生成惊艳的细节,但其本质是一个病态(ill-posed)问题。在缺乏外部约束时,模型容易产生<strong>幻觉(Hallucinations)</strong>——即伪造不真实的纹理。<strong>参考超分(RefSR)</strong>&nbsp;试图通过引入参考图(Ref)来纠正这一点。但在真实场景中,低质图(LQ)的退化通常是未知的且严重的,导致 LQ 与 Ref 的匹配极度困难。</p>
<ul>
<li><strong>现有痛点:</strong>&nbsp;显式的逐 Token 匹配(如 ReFIR )在强退化下极度脆弱,极易导致错误的纹理迁移(如双重伪影)。</li>
<li><strong>核心挑战:</strong>&nbsp;究竟该如何自适应地利用参考图像?在匹配度高时增强参考,在匹配度低时果断“断舍离”。</li>
</ul>
<p>我们提出了 Ada-RefSR方法,以解决上述的问题。以下是 Ada-RefSR 与当前主流方法的对比效果:</p>
<figure data-size="normal">
<div class="RichText-ConditionalImagePortal"><img class="origin_image zh-lightbox-thumb lazy lazyload" height="509" width="1080" data-caption="" data-size="normal" data-rawwidth="1080" data-rawheight="509" data-original="https://picx.zhimg.com/v2-26861c4be474a7e229449084b6b2e8d2_r.jpg?source=d16d100b" data-actualsrc="https://pic1.zhimg.com/v2-26861c4be474a7e229449084b6b2e8d2_720w.jpg?source=d16d100b" data-lazy-status="ok" data-src="https://pic1.zhimg.com/80/v2-26861c4be474a7e229449084b6b2e8d2_720w.webp?source=d16d100b"></div>
</figure>
<ul>
<li><strong>超越单图极限(vs. S3Diff ):</strong>相比于基线方法 S3Diff,Ada-RefSR 能够突破单图信息的瓶颈,精准地从参考图中提取并注入高频纹理,显著提升了画面的精细度。</li>
<li><strong>重塑参考范式(vs. ReFIR):</strong><br><strong>- 不过度利用:</strong>有效抑制了 ReFIR 常见的误匹配伪影,避免了生搬硬套参考图导致的视觉不协调。<br><strong>- 更充分激活:</strong>在 ReFIR 表现保守、利用率不足的区域,我们的方法能够实现“恰到好处”的细节补充,真正做到了对参考信息的<strong>深度挖掘与自适应融合</strong>。</li>
</ul>
<h2>二、技术逻辑:一步式生成的背后</h2>
<p>我们提出了<strong>&nbsp;“Trust but Verify”(信而有证)</strong>&nbsp;范式。首先通过注意力机制引入参考信息(Trust),随后通过隐式相关性建模进行过滤与验证(Verify)。</p>
<h2>2.1 结构概览</h2>
<p>以下是我们的方法结构图:</p>
<figure data-size="normal">
<div class="RichText-ConditionalImagePortal"><img class="origin_image zh-lightbox-thumb lazy lazyload" height="313" width="1080" data-caption="" data-size="normal" data-rawwidth="1080" data-rawheight="313" data-original="https://picx.zhimg.com/v2-aa3f3473647ccb972693fee543b009c5_r.jpg?source=d16d100b" data-actualsrc="https://picx.zhimg.com/v2-aa3f3473647ccb972693fee543b009c5_720w.jpg?source=d16d100b" data-lazy-status="ok" data-src="https://picx.zhimg.com/80/v2-aa3f3473647ccb972693fee543b009c5_720w.webp?source=d16d100b"></div>
</figure>
<p>Ada-RefSR 基于单步扩散模型(Single-step Diffusion)构建,核心由两个关键路径组成:</p>
<ul>
<li><strong>ReferenceNet 路径:&nbsp;</strong>冻结权重以保留 SD-Turbo 的高质量特征提取能力,通过&nbsp;<strong>Reference Attention (RA)&nbsp;</strong>实现 LQ 与 Ref 的多尺度特征对齐。</li>
<li><strong>AICG 分支(核心):&nbsp;</strong>充当自适应的“流量调节器”。</li>
</ul>
<h2>2.2 核心突破:自适应隐式相关门控 (AICG)</h2>
<p>为了实现“Trust but Verify”的范式,我们设计了 AICG 模块。其核心逻辑是通过隐式建模,计算 LQ 输入与参考图之间的“信任分”,从而动态调节细节注入的强度。</p>
<p data-pm-slice="1 3 []"><strong>第一步:提炼参考特征 (Feature Summarization)</strong></p>
<p>不同于直接使用海量的参考特征 Token(计算量大且含噪声),我们引入了一组可学习的总结 &nbsp;<strong>Token ( T</strong><em>S&nbsp;</em><strong>)</strong>。通过交叉注意力机制,将参考图中的关键纹理和高频信息压缩到极少量的&nbsp;<em>M</em>&nbsp;个核心 Token 中:</p>
<ul>
<li>
<p><strong>核心逻辑:K</strong><em><span data-size="9">sum</span></em>​=Attention(<strong>T</strong><em><span data-size="9">S</span></em>​,K<em><span data-size="9">ref</span></em><span data-size="9">​</span>)</p>
</li>
<li>
<p><strong>意义:这一步像是一个“过滤器”,只保留参考图中最重要的结构和纹理模式。</strong></p>
</li>
</ul>
<p><strong>第二步:计算隐式相关度 (Implicit Correlation)</strong></p>
<p>我们将 LQ 图像的查询特征(Query)与压缩后的参考特征进行匹配,生成一张<strong>相关性图 (Correlation Map)</strong>:</p>
<ul>
<li>
<p><strong>核心逻辑:S</strong><em><span data-size="9">map</span></em><span data-size="9">​</span>=Softmax(Q<em><span data-size="9">lq</span></em>​⋅<strong>K</strong><em><span data-size="9">sum</span></em>⊤​)</p>
</li>
<li>
<p><strong>意义:</strong>该图反映了 LQ 的每个区域在参考图中找到“可靠对应物”的概率。</p>
</li>
</ul>
<p><strong>第三步:动态门控调节 (Adaptive Gating)</strong></p>
<p>这是实现鲁棒性的关键。我们将相关性图在 Token 维度上取平均,并通过 Sigmoid 函数映射为 0 到 1 之间的<strong>自适应权重 G</strong>。</p>
<ul>
<li>
<p>计算简化版:<strong>G</strong>=<em>σ</em>(Mean(<strong>S</strong><em><span data-size="9">map</span></em>​))</p>
</li>
<li>
<p>最终融合:<strong>H</strong><em><span data-size="9">out</span></em>​=ZeroLinear(<strong>G</strong>⊙Reference&nbsp;Detail)+LQ&nbsp;Context</p>
</li>
</ul>
<p>&nbsp;</p>
<p><strong>技术优势:</strong></p>
<ul>
<li><strong>防伪影保护:</strong>当&nbsp;<strong>G</strong>&nbsp;趋近于 0 时,说明参考图在该区域不可靠,模型会自动切换回单图超分模式,有效避免误匹配导致的幻觉伪影。</li>
<li><strong>极轻量化:</strong>由于<strong><em>M</em></strong>(总结 Token 数量)远小于原始特征长度,AICG 引入的额外计算量几乎可以忽略不计。</li>
<li><strong>端到端自学习:</strong>门控权重的学习无需人工标注,完全由模型在训练过程中根据重建质量自动优化。</li>
</ul>
<h2>三、性能表现:全面领先 SOTA</h2>
<p>我们在四个主流 Benchmark 上验证了 Ada-RefSR 的实力,具体结果如下图:</p>
<figure data-size="normal">
<div class="RichText-ConditionalImagePortal"><img class="origin_image zh-lightbox-thumb lazy lazyload" height="1135" width="1080" data-caption="" data-size="normal" data-rawwidth="1080" data-rawheight="1135" data-original="https://picx.zhimg.com/v2-a17bc620f942edcf8c73019ee9b5c87d_r.jpg?source=d16d100b" data-actualsrc="https://pic1.zhimg.com/v2-a17bc620f942edcf8c73019ee9b5c87d_720w.jpg?source=d16d100b" data-lazy-status="ok" data-src="https://pic1.zhimg.com/80/v2-a17bc620f942edcf8c73019ee9b5c87d_720w.webp?source=d16d100b"></div>
</figure>
<div class="highlight">
<pre class="highlighter-hljs"><code>| 数据集                  | 指标          | 性能表现                               |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最佳,视觉自然度显著优于 ReFIR               |
| 人脸场景 (Face)         | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird)         | 结构稳定性   | 在保持语义一致性方面优势明显                     |</code></pre>
</div>
<p><strong>关键结论:</strong></p>
<ul>
<li><strong>全面领跑:</strong>&nbsp;在反映感知质量的 FID 和 LPIPS 上表现优异,证明生成的图像既清晰又自然。</li>
<li><strong>拒绝幻觉:&nbsp;</strong>AICG 机制有效减少了因误匹配导致的伪影,其鲁棒性远超现有的显式匹配方案。</li>
</ul>
<p><strong>四、落地优势:专为移动影像设计</strong></p>
<p>Ada-RefSR 的设计初衷不仅是学术性能,更考虑了<strong>端侧设备(手机)</strong>&nbsp;的部署需求:</p>
<ul>
<li><strong>极速推理:</strong>&nbsp;采用<strong>单步生成(Single-step)</strong>&nbsp;架构,相比传统多步迭代的扩散模型,推理速度提升了数十倍,真正具备在手机端侧实时处理的可能性。</li>
<li><strong>计算高效:</strong>&nbsp;AICG 模块设计精巧,仅引入极少量的可学习参数,且能通过 bf16 量化等手段进一步压缩,对显存极其友好。</li>
<li><strong>极致鲁棒:</strong>&nbsp;手机拍摄场景复杂(如变焦参考、不同光照参考),AICG 的门控机制能有效防止在参考图不相关时“带偏”画质,保证了修复结果的下限。</li>
</ul>
<h2>五、总结</h2>
<p>Ada-RefSR 通过 “<strong>Trust but Verify</strong>” 这一简洁而深刻的原则,利用隐式相关性建模解决了 RefSR 在真实世界退化下的顽疾。它不仅在学术研究上提供了一个全新的自适应视角,也为高性能、低功耗的影像修复落地指明了方向。</p>
<blockquote>引用:<br> Wang, Jianyi, et al. "Exploiting Diffusion Prior for Real-World Image Super-Resolution." IJCV, 2024.<br> Wu, Rongyuan, et al. "Seesr: Towards semantics-aware real-world image super-resolution." CVPR, 2024.<br> Jiang, Yuming, et al. "Robust Reference-based Super-Resolution via C2-Matching." CVPR, 2021.<br> Cao, Jiezhang, et al. "Reference-based Image Super-Resolution with Deformable Attention Transformer." ECCV, 2022.<br> Guo, Hang, et al. "ReFIR: Grounding Large Restoration Models with Retrieval Augmentation." arXiv:2410.05601, 2024.<br> Zhang, Aiping, et al. "Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors." arXiv:2411.01166 (S3Diff), 2024.</blockquote>
<p class="ztext-empty-paragraph">&nbsp;</p>
<p><strong>vivo BlueImage Lab</strong></p>
<p><strong>蓝图影像创新实验室</strong>,主要负责移动影像算法创新,包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。</p>
<p>致力于不断提升vivo移动影像的算法能力,使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用,努力为用户提供更加丰富和便捷的影像体验。</p>
<p>欢迎持续关注 vivo 影像技术,获取前沿技术创新经验分享与热招岗位信息。</p>

</div>
<div id="MySignature" role="contentinfo">
    分享 vivo 互联网技术干货与沙龙活动,推荐最新行业动态与热门会议。<br><br>
来源:https://www.cnblogs.com/vivotech/p/19737985
頁: [1]
查看完整版本: ICLR2026 | Ada-RefSR: 自适应隐式相关建模,开启“信而有证”的参考超分新范式