机器学习/自然语言处理今日: 0|主题: 0|排名: 34

"Deconfounding Duration Bias in Watch-time Prediction for Video Recommendation" 论文笔记 New

背景观看时长（watch time）是视频推荐中的重要指标之一，提升整体观看时长是视频推荐系统的主要目标。观看时长主要受两个因素的影响：用户是否对视频感兴趣、视频本身的时长（duration）作者分析发现持续时间数据存在明显的偏差现象（图中给出了明显的体现），具体体现在以下两个方面：一方 ...

018

文旅影视发表于昨天 14:46 机器学习/自然语言处理

深度学习进阶（十七）高效通道注意力 ECA New

上一篇我们介绍了 CBAM，它在 SE 的基础上加入了空间注意力，形成了"通道 + 空间"的混合注意力机制。我们发现，无论是 SE 还是 CBAM，它们的通道注意力子模块都采用了一个 bottleneck 结构的 MLP，即先将通道维度从 \(C\) 压缩到 \(C/r\)，再升维回 \(C\)。这种设计合理且常见：降维可以控制参数量，同时低维空间迫使网络 ...

071

个箱子您发表于昨天 12:30 机器学习/自然语言处理

深度学习进阶（十六）混合注意力 CBAM New

上一篇我们介绍了 SE 模块，从通道维度引入了注意力机制，让网络能够自适应地调整每个通道的权重。再结合之前的相关内容，现在我们已经对通道维度和空间维度上的注意力逻辑都有所了解了，显然二者并不冲突，反而是相辅相成的，因此一个想法自然就出现了：组合应用通道注意力和空间注意力，实现混合注意力机制。沿着这 ...

076

卜再回头发表于前天 15:01 机器学习/自然语言处理

深度学习进阶（十五）通道注意力 SE New

至此，在之前的内容里，我们已经介绍了传统卷积网络和 Transformer 架构两条路线在 CV 任务中的发展研究。实际上，我们可以这样总结一下：无论是 Transformer 的注意力机制，还是 CNN 的诸多创新，它们其实都在回答同一个问题：模型应该关注哪里（空间）和关注什么（通道）。也可以说的再广泛一些：大多数 CV 任务的核 ...

030

张御发表于 3 天前机器学习/自然语言处理

深度学习进阶（十四）ConvNeXt New

在之前的内容里，我们展开了 CNN 的一些演进，知道 CNN 本身也在不断发展。现在我们再绕回 Transformer ：在 21 年 Swin Transformer发表后，以它为代表的诸多 ViT 工作，已经在多个视觉任务上全面超越传统 CNN。这带来了一个非常现实的思考：就像珍妮机淘汰手工纺织一样，ViT 会不会将 CNN 扫入历史？要对这个问题下 ...

066

道易吉祥发表于 6 天前机器学习/自然语言处理

深度学习进阶（十三）可变形卷积 DCN New

之前的内容里，我们提出了让 CNN 更灵活的想法：能不能让“采样位置”本身，变成可以学习的？在上一篇里，我们已经用可变形池化实现了这一目标。但同时我们也提到了，这并非终点：既然池化可以偏移采样，那更基础的卷积本身为什么不能？这便是 Deformable Convolutional Networks 里的核心创新：可变形卷积，简称 D ...

061

把水临风发表于 7 天前机器学习/自然语言处理

3分钟看懂p值和置信区间：别再被_显著_忽悠了

不知道你有没有这种感觉：刷到某些“研究报告”或“产品测试”时，经常看到两句话—— “差异具有统计学意义（p<0.05）” “置信区间为95%” 然后文章就得出结论：这个新药有效、这个训练营有用、这个护肤成分牛掰。但你心里是不是犯嘀咕：到底啥叫“统计显著”？它跟“实际有用”是一回事吗？今天咱就掰扯清楚这俩概 ...

051

万剑合一发表于 2026-4-28 机器学习/自然语言处理

深度学习进阶（十二）可变形池化 deformable RS RoI Pooling

在上一篇中，我们已经得出了一个非常关键的结论：无论是 RoI Align 还是 PS RoI Pooling，本质上都在“改进采样方式”，但它们的采样规则仍然是“人为设计的”，也就是固定的。因此我们提出了新的想法：能不能让“采样位置”本身，变成可以学习的？这种想法的实现结果之一就是 Deformable PS RoI Pooling，可以直译 ...

性凉薄发表于 2026-4-27 机器学习/自然语言处理

深度学习进阶（十一）Position-Sensitive RoI Pooling

在上一篇中，我们已经解决了一个关键问题： RoI Pooling 的误差主要来源于“坐标量化”，而 RoI Align 通过去除取整 + 双线性插值，有效缓解了这一问题。但说到底，这只是一个对齐问题上的改进，我们在上篇的末尾也提到了新的方向：能不能让采样过程，具备一定的结构感知能力？实际上，早在 RoI Align 之前，就已经 ...

086

太行一石发表于 2026-4-24 机器学习/自然语言处理

深度学习进阶（十） RoI Align

在上一篇中，我们已经明确指出： RoI Pooling 的核心问题并不在于 Pooling 本身，而在于“取整导致的量化误差”。那么，一个非常直接的思路就是：既然误差来自“取整”，那就不要取整。这正是 RoI Align 的出发点。 1. RoI Align 的提出和思想 RoI Align 来源于 17 年提出的经典目标检测与实例分割模型： Mask ...

020

风吹半夏发表于 2026-4-21 机器学习/自然语言处理

深度学习进阶（九）池化技术的初步改进：RoI Pooling

在上一篇里，我们已经完整介绍了 Swin Transformer 的模型逻辑，知道了：Swin Transformer 的核心，并不是简单地“模仿 CNN”，而是在保留归纳偏置的同时，让建模方式更加灵活。换句话说，它做的事情是：在“约束”与“自由”之间找到一个平衡点。而在上一篇的末尾，我们也提到：当 Swin 在学习“约束”的同时，CNN 也 ...

042

南海勇士发表于 2026-4-19 机器学习/自然语言处理

深度学习进阶（八）Swin Transformer

在上一篇中，我们已经明确了 DeiT 对 ViT 的改进思路：通过蒸馏，引入 Teacher 的归纳偏置，缓解数据依赖问题。但这条路线有一个明显局限：它并没有改变 Transformer 本身的结构。换句话说，DeiT 本身依然是一个全局 attention、无层级结构、内部缺乏局部归纳偏置的模型。所以相应的改进思路水到渠成：如果不只 ...

068

李凤军发表于 2026-4-15 机器学习/自然语言处理

深度学习进阶（七）Data-efficient Image Transformer

在前面的分析中，我们已经明确了 ViT 的核心问题：由于归纳偏置较弱，ViT 对数据规模高度依赖。就这个问题，我们又展开了一种改进思路：通过蒸馏人为引入一个“软约束”，缩小搜索空间，从而减少数据依赖。于是，我们就得到了 ViT 的其中一种改进：Data-efficient Image Transformer，即 DeiT。 1. DeiT 的两种蒸馏 ...

076

青草蝴蝶发表于 2026-4-13 机器学习/自然语言处理

深度学习进阶（六）归纳偏置与蒸馏

在上一篇，我们已经完成了 Vision Transformer的完整逻辑：把图像切成 patch 当作 token，送入 Transformer Encoder 做全局建模。但我们也提到了， ViT 存在一个绕不开的痛点：没有足够大的数据规模，ViT 往往很难训练得好。而用范式角度来说，这是因为ViT 本质上是一种“弱先验、强数据驱动”的建模方式。再展开一些 ...

016

张洪瑛发表于 2026-4-10 机器学习/自然语言处理

深度学习进阶（五）Vision Transformer

在上一篇，我们已经完整介绍了原始 Transformer 的结构和整体传播逻辑。从结果上看，Transformer 在 NLP 领域带来了范式级的突破：通过自注意力机制实现了对序列的全局建模能力。然而，实际上，原始 Transformer 依然只是一个面向序列数据的模型。自然而然地，这种全新的建模方式引起了相关的思潮，首当其冲的便是：既 ...

084

夜半钟声发表于 2026-4-8 机器学习/自然语言处理

深度学习进阶（四）Transformer 整体结构

在上一篇中，我们已经完整展开了 Transformer Block 的内部结构，包括多头注意力、残差连接、LayerNorm 以及 FFN。至此，就可以正式进入 Transformer 的整体结构了。在原论文中，Transformer 本身仍是 Encoder–Decoder 架构，其中编码器的内容在 Transformer Block 中已经较为详细地展开了，而解码器也只是在一些细节上 ...

012

溪源小常识发表于 2026-4-6 机器学习/自然语言处理

深度学习进阶（三）Transformer Block

在上一篇我们已经完成了多头自注意力机制的内容，并知道了它是 Transformer Block 中的一个子模块。 Transformer Block 是 Transformer 模型的核心计算单元，它不仅创造并应用了多头自注意力机制，还结合了残差学习、归一化等多门技术。先简单概括一下 Transformer Block 的整体传播如下： \[\mathbf{X} \rightarrow \math ...

崖上小松发表于 2026-4-4 机器学习/自然语言处理

深度学习进阶（二）多头自注意力机制（Multi-Head Attention）

在第一篇中，我们已经得到了自注意力的核心公式： \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) \mathbf{V} \]再概述一下自注意力的本质：通过一次全局加权，将序列中的所有信息重新融合到每一个位置上，最终强化信息表示。但单头 ...

013

祝福国家强大发表于 2026-4-2 机器学习/自然语言处理

深度学习进阶（一）从注意力到自注意力

新分类续接之前的注意力机制内容开始，展开一些更现代的理论。在之前的深度学习内容中，我们已经介绍了注意力机制的核心流程，其本质可以概括为：在解码的每一个时间步增加注意力计算得到上下文向量，让模型可以根据当前状态，从输入序列中动态选择相关信息。实际上，你会发现：在这个传播过程中，传统的注意力机制只是 ...

011

天上鑫宸不说话发表于 2026-3-31 机器学习/自然语言处理

基于深度学习的麦穗计数系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)

视频演示基于深度学习的麦穗计数系统 1. 前言大家好，欢迎来到 Coding 茶水间。在智慧农业与精准育种快速发展的今天，麦穗计数作为评估作物产量、监测生长态势及指导田间管理的关键环节，其重要性不言而喻。然而，传统的人工计数方式不仅耗时费力、效率低下，且极易受人为因素影响产生误差；而面对野外复杂多变的光照 ...

044

尚勇发表于 2026-3-23 机器学习/自然语言处理

返回发新帖

机器学习/自然语言处理今日: 0|主题: 0|排名: 34

快速发帖

浏览过的版块

机器学习/自然语言处理 今日: 0|主题: 0|排名: 34

快速发帖

浏览过的版块

机器学习/自然语言处理今日: 0|主题: 0|排名: 34