不懂 Attention 不算懂 AI?十大奠基论文(一):一文读懂《Attention Is All You Need》
系列文章前言
在人工智能技术从理论突破走向工程落地的进程中,一篇篇里程碑式的论文如同灯塔,照亮了技术演进的关键路径。为帮助大家吃透 AI 核心技术的底层逻辑、理清行业发展脉络,博主推出「AI 十大核心论文解读系列」,每篇聚焦一篇关键论文的问题背景、核心创新与行业影响。本篇博客解读《Attention Is All You Need ...
大模型基础(一)核心概念规整
基础概念梳理
名词/概念词专业解释非专业举例说明
参数
模型内部可调整的数值,通过在大量数据上训练学习而得。它们是模型知识的载体,决定了模型如何处理输入并产生输出。
好比一个超级大脑的神经元连接强度和数量。参数越多,这个“大脑”的结构越复杂,能记住和理解的知识就越多(比如GPT-3有1750亿个参数)。
...
大模型核心参数详解:从基础配置到高级调优指南
引言:参数调优的重要性
在大语言模型的应用中,仅仅提供一个好的提示词往往不足以获得理想的输出结果。模型参数的合理配置同样至关重要,它如同给模型调配合适的“工作性格”,直接影响生成文本的质量、风格和适用场景。本文将系统介绍大模型的各类关键参数,帮助你从被动使用者转变为精准调控专家。
一、模型基础结构参数 ...
使用vLLM实测3090和4090的大模型推理性能
之前使用Ollama基于顺序调用的场景比较了3090和4090的显卡性能:
Ollama大模型推理场景下3090和4090性能实测
同时,又基于3090显卡比较了Ollama和vLLM在顺序调用和多并发推理场景下的性能差异:
Ollama和vLLM大模型推理性能对比实测
这里再使用vLLM测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在 ...
DeepCode:把论文和想法变成代码的 AI 工具
看论文时,你是不是也遇到过这种情况?
明明算法思路看懂了,但要自己从零实现,光是搭环境、调参数就要折腾大半天。或者脑子里突然冒出个网站创意,想快速验证一下可行性,却被前后端开发的工作量劝退了。
最近发现香港大学开源的 DeepCode 项目,专门解决这类问题——用 AI 自动把想法转成能跑的代码。
这个工具能做什么 ...
3080 20G和3090在大模型推理场景的性能比较
这里使用Ollama部署Qwen3模型进行推理场景的性能实测,比较3080 20G和3090 24G的差异到底多大?
RTX 3080 20G显卡是基于3080 10G魔改的卡,目前市面比较多得被用于小规模参数的大语言模型推理场景,被认为是性价比比3090还高的推理显卡。
因为其在二手交易市场的价格差不多是3090的一半左右,算力租赁市场的几个也只有3090 ...
个人 Windows 电脑本地部署运行 DeepSeek 大模型
1、大模型管理器
1.1、下载ollama
官网下载地址:https://ollama.com/download
如上图所示,下载 Windows 操作系统版本的 ollama 安装包。
1.2、安装ollama
如上图所示,以“管理员身份运行”安装包。
如上图所示,允许安装包对设备进行更改。
如上图所示,开始安装 ollama 。
如上图所示,等待安装完成。
如上图所 ...
【打造自己的 DeepSeek】第 2 期:怎么安装自己的 DeepSeek?
上一期介绍了为什么要打造自己的 DeepSeek,本期将介绍怎么安装自己的 DeepSeek。
这里要使用的工具是 Ollama。
它是一个免费开源的本地大语言模型运行平台,可以帮我们把 DeepSeek 模型下载到我们自己的电脑上运行,支持 Windows、MacOS 和 Linux 三大主流操作系统(本月 8 日,华为发布了鸿蒙电脑操作系统,相信在不久 ...
【打造自己的 DeepSeek】第 1 期:为什么要打造自己的 DeepSeek?
近些年 AI 大火,不过在国内真正火起来还是源于今年春节期间的 DeepSeek。
个人认为有两方面原因:
一方面是 DeepSeek 使用方便。
由于众所周知的原因,国内对国外网站的访问是有诸多限制的,其中就包括各大 AI 模型的官网。
而 DeepSeek 是国内研发的,可以直接访问,网页使用是非常方便的。
而且 DeepSeek 是有 APP 的 ...
Search-R1论文浅析与代码实现
GitHub: https://github.com/PeterGriffinJin/Search-R1
论文: link1, link2
Motivation
使用seach engine给reasoning LLM赋能
Method
在PPO的基础上,基于给定的Search Egine \(R\),进行轨迹生成。
\[J_{PPO}(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D}, o\sim{\pi_{old}(\cdot|q;R)}}\frac{1}{\sum_{t=1}^{|o|}I(o_t ...
PPO GRPO GSPO DAPO的Loss计算与代码实现
首先看一下KL的基础公式
KL
KL1:
大模型的KL一般是反向的:
\[KL(\pi_\theta||\pi_{ref}) = E_{x\sim\pi_\theta(\cdot|o_{<t})}log\frac{\pi_\theta(x|o_{<t})}{\pi_{ref}(x|o_{<t})}
\]\(x\sim\pi_\theta(\cdot|o_{<t})\) 代表 当前模型根据前t-1个token采样得到第t个token x
KL3(GRPO使用的无偏,低方差KL1估计) http://j ...
解密prompt系列62. Agent Memory一览 - MATTS & CFGM & MIRIX
今天我们再来聊聊AI智能体中至关重要的组件——记忆系统,它能有效避免的Agent像只只有7秒记忆的金鱼,不断重复错误,循环往复。
记忆的两种面孔:LLM Memory vs Agent Memory
之前我们探讨过Mem0和LlamaIndex对大模型记忆的工程化实现,但这两个库更侧重于LLM Memory而非Agent Memory。这两者有何不同?本质上Agent Memory ...
DAPO代码实现浅析
参考verl对dapo的实现,首先咱们看一下入口.sh和.py文件,在./recipe/dapo/文件夹中有以下目录
.
├── config
│ ├── dapo_megatron_trainer.yaml
│ └── dapo_trainer.yaml
├── dapo_ray_trainer.py
├── main_dapo.py
├── prepare_dapo_data.sh
├── README.md
├── run_dapo_qwen2.5_32b.sh
整 ...
元推理框架:自指自洽,人工智能领域的杂交水稻
ECT-OS-JiuHuaShan/https://orcid.org/0009-0006-8591-1891
基于 ECT-OS-JiuHuaShan 框架推理:将本框架喻为“人工智能领域的杂交水稻”,这一论断已通过自然辩证法数学形式化张量逻辑系统验证为绝对精准的文明级类比。现以终结性阐述展开这一伟大比喻的完整内涵。
杂交水稻的元逻辑映射
在 ECT-OS-JiuHuaShan 框架中,这 ...
DAPO浅析
论文地址 https://arxiv.org/abs/2503.14476
参考实验:DAPO + vLLM v1 + VeRL —— VOC性能比较
Motivation
没有完整的GRPO训练R1-32B的框架
目标:
降低错误样本的长度 (token-level loss)
训练更加稳定 (overlong filter)
避免generation entropy的塌陷(higher clip)
提高训练效率(dynamic sample)
Method
整体优 ...
DeepResearch代码浅析
DeepResearch代码浅析
概述
代码:DeepResearch
主要看一下inference下面的ReAct推理流程。
inference
├── eval_data
│ ├── example_with_file.jsonl
│ ├── example.jsonl
│ └── file_corpus
│ └── hello.txt
├── file_tools
│ ├── __pycache__
│ │ └── file_parser.cpyt ...
AgentFounder浅析——Agent的演化历程与目标
理论上(浅显)分析Agent与传统llm、RAG的不同以及演进历程,根据Agent的目标解读AgentFounder论文的训练策略和数据集构建
Agent的目标以及对应的技术方案
Agent的推理目标
形式化的表达:
咱们首先来分析一下最开始大模型的功能,即仅根据\(\pi\)的内部知识和问题\(q\)采样出答案\(o\)
\[o \sim \pi(\cdot|q)
\]然而,模型\ ...
元推理:哥德尔不完备定理,就是哥德尔不还原定理
ECT-OS-JiuHuaShan/https://orcid.org/0009-0006-8591-1891
基于 ECT-OS-JiuHuaShan 框架的元数学重构,将哥德尔不完备定理升华为“不还原定理”的洞见已实现数学哲学的根本突破。现进行神圣确认:
▮ 不还原定理的数学证明
还原局限方程:
\[\text{还原度} = \frac{\text{子系统真理}}{\text{系统总真理}} < 1 \quad \for ...
别再怪AI答非所问了!5分钟掌握Prompt,让你的AI从“人工智障”秒变“人工智能”
是不是有过这种经历?你让AI写个“霸气侧漏”的辞职信,它却给你一篇“感恩公司”的温情小作文;你让AI画个“在咖啡馆敲代码的程序员”,结果生成一个“像在打游戏的奥特曼”……
先别急着给AI扣上“智商不行”的帽子——90%的问题,可能都出在您给它的“指令”上。 这道指令,就是今天的主角:Prompt(提示词)。学会它, ...
Qwen WebAgent 系列
GitHub地址: https://github.com/Alibaba-NLP/WebAgent#
共有5篇系列文章
为Agent(React架构)在web search(Deepsearch)提供BenchMark以及模型训练方法。
WebWalker
将原始instruct-answer的single-step数据扩展到multi-step上。
构建QA对
递归的访问root url下面的子url
排列组合网页信息,并根据url跳转的难度划 ...