ICLR2026 | Ada-RefSR: 自适应隐式相关建模，开启“信而有证”的参考超分新范式

娱乐透视 發表於 2026-3-19 11:36:00

ICLR2026 | Ada-RefSR: 自适应隐式相关建模，开启“信而有证”的参考超分新范式

<blockquote data-first-child="">作者： vivo BlueImage Lab 摘要： 我们针对于单步SD的超分模型容易出现幻觉问题，提出了信而有证参考超分新范式，基于单步扩散模型构建，首先通过注意力机制引入参考信息，随后通过隐式相关性建模进行过滤与验证，对应的论文已被 ICLR2026 接收！ 该工作由vivo BlueImage Lab，南开大学共同完成。</blockquote>
项目主页：
https://github.com/vivoCameraResearch/AdaRefSR
<h2>一、研究背景：解决扩散模型的“幻觉”困境</h2>
基于扩散模型的单图超分（SISR）虽然能生成惊艳的细节，但其本质是一个病态（ill-posed）问题。在缺乏外部约束时，模型容易产生幻觉（Hallucinations）——即伪造不真实的纹理。参考超分（RefSR） 试图通过引入参考图（Ref）来纠正这一点。但在真实场景中，低质图（LQ）的退化通常是未知的且严重的，导致 LQ 与 Ref 的匹配极度困难。
<ul>
<li>现有痛点： 显式的逐 Token 匹配（如 ReFIR ）在强退化下极度脆弱，极易导致错误的纹理迁移（如双重伪影）。</li>
<li>核心挑战： 究竟该如何自适应地利用参考图像？在匹配度高时增强参考，在匹配度低时果断“断舍离”。</li>
</ul>
我们提出了 Ada-RefSR方法，以解决上述的问题。以下是 Ada-RefSR 与当前主流方法的对比效果：
<figure data-size="normal">
<div class="RichText-ConditionalImagePortal"><img class="origin_image zh-lightbox-thumb lazy lazyload" height="509" width="1080" data-caption="" data-size="normal" data-rawwidth="1080" data-rawheight="509" data-original="https://picx.zhimg.com/v2-26861c4be474a7e229449084b6b2e8d2_r.jpg?source=d16d100b" data-actualsrc="https://pic1.zhimg.com/v2-26861c4be474a7e229449084b6b2e8d2_720w.jpg?source=d16d100b" data-lazy-status="ok" data-src="https://pic1.zhimg.com/80/v2-26861c4be474a7e229449084b6b2e8d2_720w.webp?source=d16d100b"></div>
</figure>
<ul>
<li>超越单图极限（vs. S3Diff ）：相比于基线方法 S3Diff，Ada-RefSR 能够突破单图信息的瓶颈，精准地从参考图中提取并注入高频纹理，显著提升了画面的精细度。</li>
<li>重塑参考范式（vs. ReFIR）： - 不过度利用：有效抑制了 ReFIR 常见的误匹配伪影，避免了生搬硬套参考图导致的视觉不协调。 - 更充分激活：在 ReFIR 表现保守、利用率不足的区域，我们的方法能够实现“恰到好处”的细节补充，真正做到了对参考信息的深度挖掘与自适应融合。</li>
</ul>
<h2>二、技术逻辑：一步式生成的背后</h2>
我们提出了 “Trust but Verify”（信而有证） 范式。首先通过注意力机制引入参考信息（Trust），随后通过隐式相关性建模进行过滤与验证（Verify）。
<h2>2.1 结构概览</h2>
以下是我们的方法结构图：
<figure data-size="normal">
<div class="RichText-ConditionalImagePortal"><img class="origin_image zh-lightbox-thumb lazy lazyload" height="313" width="1080" data-caption="" data-size="normal" data-rawwidth="1080" data-rawheight="313" data-original="https://picx.zhimg.com/v2-aa3f3473647ccb972693fee543b009c5_r.jpg?source=d16d100b" data-actualsrc="https://picx.zhimg.com/v2-aa3f3473647ccb972693fee543b009c5_720w.jpg?source=d16d100b" data-lazy-status="ok" data-src="https://picx.zhimg.com/80/v2-aa3f3473647ccb972693fee543b009c5_720w.webp?source=d16d100b"></div>
</figure>
Ada-RefSR 基于单步扩散模型（Single-step Diffusion）构建，核心由两个关键路径组成：
<ul>
<li>ReferenceNet 路径： 冻结权重以保留 SD-Turbo 的高质量特征提取能力，通过 Reference Attention (RA) 实现 LQ 与 Ref 的多尺度特征对齐。</li>
<li>AICG 分支（核心）： 充当自适应的“流量调节器”。</li>
</ul>
<h2>2.2 核心突破：自适应隐式相关门控 (AICG)</h2>
为了实现“Trust but Verify”的范式，我们设计了 AICG 模块。其核心逻辑是通过隐式建模，计算 LQ 输入与参考图之间的“信任分”，从而动态调节细节注入的强度。
第一步：提炼参考特征 (Feature Summarization)
不同于直接使用海量的参考特征 Token（计算量大且含噪声），我们引入了一组可学习的总结  Token ( TS )。通过交叉注意力机制，将参考图中的关键纹理和高频信息压缩到极少量的 M 个核心 Token 中：
<ul>
<li>
核心逻辑：Ksum=Attention(TS,Kref)
</li>
<li>
意义：这一步像是一个“过滤器”，只保留参考图中最重要的结构和纹理模式。
</li>
</ul>
第二步：计算隐式相关度 (Implicit Correlation)
我们将 LQ 图像的查询特征（Query）与压缩后的参考特征进行匹配，生成一张相关性图 (Correlation Map)：
<ul>
<li>
核心逻辑：Smap=Softmax(Qlq⋅Ksum⊤)
</li>
<li>
意义：该图反映了 LQ 的每个区域在参考图中找到“可靠对应物”的概率。
</li>
</ul>
第三步：动态门控调节 (Adaptive Gating)
这是实现鲁棒性的关键。我们将相关性图在 Token 维度上取平均，并通过 Sigmoid 函数映射为 0 到 1 之间的自适应权重 G。
<ul>
<li>
计算简化版：G=σ(Mean(Smap))
</li>
<li>
最终融合：Hout=ZeroLinear(G⊙Reference Detail)+LQ Context
</li>
</ul>
 
技术优势：
<ul>
<li>防伪影保护：当 G 趋近于 0 时，说明参考图在该区域不可靠，模型会自动切换回单图超分模式，有效避免误匹配导致的幻觉伪影。</li>
<li>极轻量化：由于M（总结 Token 数量）远小于原始特征长度，AICG 引入的额外计算量几乎可以忽略不计。</li>
<li>端到端自学习：门控权重的学习无需人工标注，完全由模型在训练过程中根据重建质量自动优化。</li>
</ul>
<h2>三、性能表现：全面领先 SOTA</h2>
我们在四个主流 Benchmark 上验证了 Ada-RefSR 的实力，具体结果如下图：
<figure data-size="normal">
<div class="RichText-ConditionalImagePortal"><img class="origin_image zh-lightbox-thumb lazy lazyload" height="1135" width="1080" data-caption="" data-size="normal" data-rawwidth="1080" data-rawheight="1135" data-original="https://picx.zhimg.com/v2-a17bc620f942edcf8c73019ee9b5c87d_r.jpg?source=d16d100b" data-actualsrc="https://pic1.zhimg.com/v2-a17bc620f942edcf8c73019ee9b5c87d_720w.jpg?source=d16d100b" data-lazy-status="ok" data-src="https://pic1.zhimg.com/80/v2-a17bc620f942edcf8c73019ee9b5c87d_720w.webp?source=d16d100b"></div>
</figure>
<div class="highlight">
<pre class="highlighter-hljs"><code>| 数据集 | 指标 | 性能表现 |
| :--------------------- | :------------------- | :---------------------------------------- |
| 通用纹理 (CUFED5、WRSR) | FID / LPIPS | 达到最佳，视觉自然度显著优于 ReFIR |
| 人脸场景 (Face) | PSNR / SSIM | 超越 FaceMe、InstantRestore 等垂直领域专用方法 |
| 特定类别 (Bird) | 结构稳定性 | 在保持语义一致性方面优势明显 |</code></pre>
</div>
关键结论：
<ul>
<li>全面领跑： 在反映感知质量的 FID 和 LPIPS 上表现优异，证明生成的图像既清晰又自然。</li>
<li>拒绝幻觉： AICG 机制有效减少了因误匹配导致的伪影，其鲁棒性远超现有的显式匹配方案。</li>
</ul>
四、落地优势：专为移动影像设计
Ada-RefSR 的设计初衷不仅是学术性能，更考虑了端侧设备（手机） 的部署需求：
<ul>
<li>极速推理： 采用单步生成（Single-step） 架构，相比传统多步迭代的扩散模型，推理速度提升了数十倍，真正具备在手机端侧实时处理的可能性。</li>
<li>计算高效： AICG 模块设计精巧，仅引入极少量的可学习参数，且能通过 bf16 量化等手段进一步压缩，对显存极其友好。</li>
<li>极致鲁棒： 手机拍摄场景复杂（如变焦参考、不同光照参考），AICG 的门控机制能有效防止在参考图不相关时“带偏”画质，保证了修复结果的下限。</li>
</ul>
<h2>五、总结</h2>
Ada-RefSR 通过 “Trust but Verify” 这一简洁而深刻的原则，利用隐式相关性建模解决了 RefSR 在真实世界退化下的顽疾。它不仅在学术研究上提供了一个全新的自适应视角，也为高性能、低功耗的影像修复落地指明了方向。
<blockquote>引用： Wang, Jianyi, et al. "Exploiting Diffusion Prior for Real-World Image Super-Resolution." IJCV, 2024. Wu, Rongyuan, et al. "Seesr: Towards semantics-aware real-world image super-resolution." CVPR, 2024. Jiang, Yuming, et al. "Robust Reference-based Super-Resolution via C2-Matching." CVPR, 2021. Cao, Jiezhang, et al. "Reference-based Image Super-Resolution with Deformable Attention Transformer." ECCV, 2022. Guo, Hang, et al. "ReFIR: Grounding Large Restoration Models with Retrieval Augmentation." arXiv:2410.05601, 2024. Zhang, Aiping, et al. "Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors." arXiv:2411.01166 (S3Diff), 2024.</blockquote>
 
vivo BlueImage Lab
蓝图影像创新实验室，主要负责移动影像算法创新，包括图像/视频处理、图像/视频交互、图像/视频增强、多模态理解大模型等方面的技术前沿探索。
致力于不断提升vivo移动影像的算法能力，使用户能够拍摄出更加清晰、美观的照片和视频。同时积极探索增强现实、具身智能等新兴技术领域的应用，努力为用户提供更加丰富和便捷的影像体验。
欢迎持续关注 vivo 影像技术，获取前沿技术创新经验分享与热招岗位信息。

</div>
<div id="MySignature" role="contentinfo">
分享 vivo 互联网技术干货与沙龙活动，推荐最新行业动态与热门会议。 
来源：https://www.cnblogs.com/vivotech/p/19737985

頁: [1]

圆梦公社's Archiver

ICLR2026 | Ada-RefSR: 自适应隐式相关建模，开启“信而有证”的参考超分新范式