收藏本版 |订阅

机器学习/自然语言处理 今日: 0|主题: 0|排名: 34 

  • "Deconfounding Duration Bias in Watch-time Prediction for Video Recommendation" 论文笔记 New
    背景 观看时长(watch time)是视频推荐中的重要指标之一,提升整体观看时长是视频推荐系统的主要目标。观看时长主要受两个因素的影响:用户是否对视频感兴趣、视频本身的时长(duration) 作者分析发现持续时间数据存在明显的偏差现象(图中给出了明显的体现),具体体现在以下两个方面: 一方 ...
    018 文旅影视 发表于 昨天 14:46 机器学习/自然语言处理
  • 深度学习进阶(十七)高效通道注意力 ECA New
    上一篇我们介绍了 CBAM,它在 SE 的基础上加入了空间注意力,形成了"通道 + 空间"的混合注意力机制。 我们发现,无论是 SE 还是 CBAM,它们的通道注意力子模块都采用了一个 bottleneck 结构的 MLP,即先将通道维度从 \(C\) 压缩到 \(C/r\),再升维回 \(C\)。 这种设计合理且常见:降维可以控制参数量,同时低维空间迫使网络 ...
    071 个箱子您 发表于 昨天 12:30 机器学习/自然语言处理
  • 深度学习进阶(十六) 混合注意力 CBAM New
    上一篇我们介绍了 SE 模块,从通道维度引入了注意力机制,让网络能够自适应地调整每个通道的权重。 再结合之前的相关内容,现在我们已经对通道维度和空间维度上的注意力逻辑都有所了解了,显然二者并不冲突,反而是相辅相成的,因此一个想法自然就出现了: 组合应用通道注意力和空间注意力,实现混合注意力机制。 沿着这 ...
    076 卜再回头 发表于 前天 15:01 机器学习/自然语言处理
  • 深度学习进阶(十五)通道注意力 SE New
    至此,在之前的内容里,我们已经介绍了传统卷积网络和 Transformer 架构两条路线在 CV 任务中的发展研究。 实际上,我们可以这样总结一下: 无论是 Transformer 的注意力机制,还是 CNN 的诸多创新,它们其实都在回答同一个问题:模型应该关注哪里(空间)和关注什么(通道)。 也可以说的再广泛一些:大多数 CV 任务的核 ...
    030 张御 发表于 3 天前 机器学习/自然语言处理
  • 深度学习进阶(十四)ConvNeXt New
    在之前的内容里,我们展开了 CNN 的一些演进,知道 CNN 本身也在不断发展。 现在我们再绕回 Transformer :在 21 年 Swin Transformer发表后,以它为代表的诸多 ViT 工作,已经在多个视觉任务上全面超越传统 CNN。 这带来了一个非常现实的思考: 就像珍妮机淘汰手工纺织一样,ViT 会不会将 CNN 扫入历史? 要对这个问题下 ...
  • 深度学习进阶(十三)可变形卷积 DCN New
    之前的内容里,我们提出了让 CNN 更灵活的想法: 能不能让“采样位置”本身,变成可以学习的? 在上一篇里,我们已经用可变形池化实现了这一目标。但同时我们也提到了,这并非终点: 既然池化可以偏移采样,那更基础的卷积本身为什么不能? 这便是 Deformable Convolutional Networks 里的核心创新:可变形卷积,简称 D ...
  • 3分钟看懂p值和置信区间:别再被_显著_忽悠了
    不知道你有没有这种感觉:刷到某些“研究报告”或“产品测试”时,经常看到两句话—— “差异具有统计学意义(p<0.05)” “置信区间为95%” 然后文章就得出结论:这个新药有效、这个训练营有用、这个护肤成分牛掰。 但你心里是不是犯嘀咕:到底啥叫“统计显著”? 它跟“实际有用”是一回事吗? 今天咱就掰扯清楚这俩概 ...
  • 深度学习进阶(十二)可变形池化 deformable RS RoI Pooling
    在上一篇中,我们已经得出了一个非常关键的结论: 无论是 RoI Align 还是 PS RoI Pooling,本质上都在“改进采样方式”,但它们的采样规则仍然是“人为设计的”,也就是固定的。 因此我们提出了新的想法: 能不能让“采样位置”本身,变成可以学习的? 这种想法的实现结果之一就是 Deformable PS RoI Pooling,可以直译 ...
  • 深度学习进阶(十一)Position-Sensitive RoI Pooling
    在上一篇中,我们已经解决了一个关键问题: RoI Pooling 的误差主要来源于“坐标量化”,而 RoI Align 通过去除取整 + 双线性插值,有效缓解了这一问题。 但说到底,这只是一个对齐问题上的改进,我们在上篇的末尾也提到了新的方向: 能不能让采样过程,具备一定的结构感知能力? 实际上,早在 RoI Align 之前,就已经 ...
  • 深度学习进阶(十) RoI Align
    在上一篇中,我们已经明确指出: RoI Pooling 的核心问题并不在于 Pooling 本身,而在于“取整导致的量化误差”。 那么,一个非常直接的思路就是: 既然误差来自“取整”,那就不要取整。 这正是 RoI Align 的出发点。 1. RoI Align 的提出和思想 RoI Align 来源于 17 年提出的经典目标检测与实例分割模型: Mask ...
  • 深度学习进阶(九)池化技术的初步改进:RoI Pooling
    在上一篇里,我们已经完整介绍了 Swin Transformer 的模型逻辑,知道了:Swin Transformer 的核心,并不是简单地“模仿 CNN”,而是在保留归纳偏置的同时,让建模方式更加灵活。 换句话说,它做的事情是: 在“约束”与“自由”之间找到一个平衡点。 而在上一篇的末尾,我们也提到:当 Swin 在学习“约束”的同时,CNN 也 ...
  • 深度学习进阶(八)Swin Transformer
    在上一篇中,我们已经明确了 DeiT 对 ViT 的改进思路: 通过蒸馏,引入 Teacher 的归纳偏置,缓解数据依赖问题。 但这条路线有一个明显局限: 它并没有改变 Transformer 本身的结构。 换句话说,DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置的模型。 所以相应的改进思路水到渠成: 如果不只 ...
    068 李凤军 发表于 2026-4-15 机器学习/自然语言处理
  • 深度学习进阶(七)Data-efficient Image Transformer
    在前面的分析中,我们已经明确了 ViT 的核心问题: 由于归纳偏置较弱,ViT 对数据规模高度依赖。 就这个问题,我们又展开了一种改进思路: 通过蒸馏人为引入一个“软约束”,缩小搜索空间,从而减少数据依赖。 于是,我们就得到了 ViT 的其中一种改进:Data-efficient Image Transformer,即 DeiT。 1. DeiT 的两种蒸馏 ...
  • 深度学习进阶(六)归纳偏置与蒸馏
    在上一篇,我们已经完成了 Vision Transformer的完整逻辑:把图像切成 patch 当作 token,送入 Transformer Encoder 做全局建模。 但我们也提到了, ViT 存在一个绕不开的痛点: 没有足够大的数据规模,ViT 往往很难训练得好。 而用范式角度来说,这是因为ViT 本质上是一种“弱先验、强数据驱动”的建模方式。 再展开一些 ...
    016 张洪瑛 发表于 2026-4-10 机器学习/自然语言处理
  • 深度学习进阶(五)Vision Transformer
    在上一篇,我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。 从结果上看,Transformer 在 NLP 领域带来了范式级的突破:通过自注意力机制实现了对序列的全局建模能力。 然而,实际上,原始 Transformer 依然只是一个面向序列数据的模型。 自然而然地,这种全新的建模方式引起了相关的思潮,首当其冲的便是: 既 ...
  • 深度学习进阶(四)Transformer 整体结构
    在上一篇中,我们已经完整展开了 Transformer Block 的内部结构,包括多头注意力、残差连接、LayerNorm 以及 FFN。 至此,就可以正式进入 Transformer 的整体结构了。 在原论文中,Transformer 本身仍是 Encoder–Decoder 架构,其中编码器的内容在 Transformer Block 中已经较为详细地展开了,而解码器也只是在一些细节上 ...
  • 深度学习进阶(三)Transformer Block
    在上一篇我们已经完成了多头自注意力机制的内容,并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元,它不仅创造并应用了多头自注意力机制,还结合了残差学习、归一化等多门技术。 先简单概括一下 Transformer Block 的整体传播如下: \[\mathbf{X} \rightarrow \math ...
  • 深度学习进阶(二)多头自注意力机制(Multi-Head Attention)
    在第一篇中,我们已经得到了自注意力的核心公式: \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) \mathbf{V} \]再概述一下自注意力的本质:通过一次全局加权,将序列中的所有信息重新融合到每一个位置上,最终强化信息表示。 但单头 ...
  • 深度学习进阶(一)从注意力到自注意力
    新分类续接之前的注意力机制内容开始,展开一些更现代的理论。 在之前的深度学习内容中,我们已经介绍了注意力机制的核心流程,其本质可以概括为:在解码的每一个时间步增加注意力计算得到上下文向量,让模型可以根据当前状态,从输入序列中动态选择相关信息。 实际上,你会发现:在这个传播过程中,传统的注意力机制只是 ...
  • 基于深度学习的麦穗计数系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
    视频演示 基于深度学习的麦穗计数系统 1. 前言​ 大家好,欢迎来到 Coding 茶水间。 在智慧农业与精准育种快速发展的今天,麦穗计数作为评估作物产量、监测生长态势及指导田间管理的关键环节,其重要性不言而喻。然而,传统的人工计数方式不仅耗时费力、效率低下,且极易受人为因素影响产生误差;而面对野外复杂多变的光照 ...
    044 尚勇 发表于 2026-3-23 机器学习/自然语言处理
  • 快速发帖

    还可输入 180 个字符
    您需要登录后才可以发帖 登录 | 立即注册

    本版积分规则

    相关侵权、举报、投诉及建议等,请发 E-mail:qiongdian@foxmail.com

    Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.

    在本版发帖返回顶部