收藏本版 |订阅

AI大模型 今日: 0|主题: 313|排名: 11 

  • 微调显存总爆炸?问题往往不在你以为的地方
    显存不够,几乎是每个微调项目的“入场仪式” 如果你做过大模型微调,那“显存不够”这四个字,你几乎不可能陌生。 第一次跑,直接 OOM。 换个 batch size,再 OOM。 开 bf16,还是不够。 关掉一些东西,终于能跑了,但速度慢得离谱。 很多人会在这个阶段得出一个结论: “是我显卡不行。” 但当你真的开始拆解显存使用之后 ...
    091 绒布厂家 发表于 2026-1-24 AI大模型
  • langchain 快速入门(三):搭建RAG知识库
    简介 LLM大模型一般训练的数据都是滞后的,这是就需要用到RAG知识库,RAG知识库可以降低大模型在输出答案时的幻觉,也能够让大模型知识拓展。 知识库架构知识 检索流程图 用户输入 (User Query) | v +-----------------------+ | 提示词 (Prompt) | +----------------------- ...
    057 坚强的帅 发表于 2026-1-24 AI大模型
  • 评估,才是微调里最反直觉的部分
    训练跑通了,并不意味着你“完成了微调” 如果你已经做过几次大模型微调,很可能会有一种奇怪的感觉。 训练这件事,其实没那么难。 数据准备好,参数配一配,模型一跑,loss 往下走,看起来一切都很正常。只要环境不炸,显存够用,大多数人都能把训练流程跑完。 但等你真正停下来,准备回答一个问题时,事情就开始变得不那 ...
    071 灰壳显灵 发表于 2026-1-24 AI大模型
  • 为什么 loss 几乎没用:微调里最容易让人“自嗨”的指标
    loss 是怎么一步步“骗”过工程师的 如果你做过大模型微调,几乎一定经历过这样一个时刻。 训练刚跑起来,你盯着屏幕上的 loss 曲线,看着它从一个比较高的值,慢慢、稳定地往下走。曲线很平滑,没有剧烈抖动,看起来一切都很健康。这时候你心里往往会产生一种非常强烈的安全感: “这次应该稳了。” 但等你真正拿模型去测 ...
    092 幽默是智慧的体现 发表于 2026-1-23 AI大模型
  • 从 0 到跑通一次微调:别急着追效果,先让它“真的动起来”
    微调最难的地方,从来不是“学不会”,而是“跑不起来” 如果你是第一次接触大模型微调,很可能已经经历过这样一个阶段。你看过不少文章,也刷过不少视频,大致知道什么是 SFT、LoRA,知道微调是“拿数据继续训练模型”。从概念上看,这件事并不复杂,甚至有点“理所当然”。但真到你自己动手的时候,事情就开始变得不对劲 ...
    050 端州闲人 发表于 2026-1-23 AI大模型
  • Langchain 快速入门(一): 运行你第一个LLM模型
    简介 langchain专门用于构建LLM大语言模型,其中提供了大量的prompt模板,和组件,通过chain(链)的方式将流程连接起来,操作简单,开发便捷。 环境配置 安装langchain框架 pip install langchain langchain-community 其中langchain可以提供了各种大模型语言库选择,(这里只列举几个)例如: #chatgpt pip install langch ...
    053 正义也会迟到 发表于 2026-1-22 AI大模型
  • 你以为 PPO 很高级,其实它更像个“微调旋钮”
    为什么 PPO 在真实业务里越来越重要 如果你是从论文或者课程里接触 PPO 的,那大概率会有一种“这东西看起来很厉害”的感觉。策略梯度、clip、KL 约束、reward model,一整套体系下来,很容易让人产生错觉:只要把 PPO 跑起来,大模型就能被“精细打磨”。 但真正进到业务里,你会发现情况完全不是这么回事。 大多数业务方 ...
    049 新房友 发表于 2026-1-22 AI大模型
  • 向量数据库技术内核:从存储到检索,拆解其高效运作的秘密
    向量数据库技术内核:从存储到检索,拆解其高效运作的秘密 写在前面:我也是“被向量数据库名词轰炸”过的人 说实话,我第一次接触向量数据库的时候,是有点抗拒的。 那会儿各种文章都在说: 向量数据库是 AI 时代的“新型基础设施” 没有向量数据库,大模型就跑不起来 它彻底改变了传统数据库的范式 结果我真正打开文档 ...
    075 大眼邓小眼 发表于 2026-1-21 AI大模型
  • 从零开始:PPO 微调大模型实战(基于 PyTorch)
    从零开始:PPO 微调大模型实战(基于 PyTorch) PPO 真正难的,不是算法本身 如果你已经看过一些 PPO 的原理文章,大概率会有过这种感觉: 好像每个字都认识,但真让我自己写代码,脑子还是一片空白。 这其实挺正常的。 至少我第一次准备动手写 PPO 的时候,也是这种状态。 问题不在你,而在 PPO 本身。 在论文里,PPO 看起 ...
    025 泰康之家朱经理 发表于 2026-1-21 AI大模型
  • 模型推理框架——vllm原理及整体框架
    PageAttention原理分析 Page Attention也是一种优化方法(区别于MLA,page attention是对内存进行分配管理)。参考论文[1]中描述,对于KV-cache存在3个问题: 1、预留浪费 (Reserved):为将来可能的 token 预留的空间,这些空间被保留但暂未使用,其他请求无法使用这些预留空间; 2、内部内存碎片化问题(internal memory ...
    034 秦临天下 发表于 2026-1-21 AI大模型
  • 10 万文档 RAG 落地实战:从 Demo 到生产,我踩过的所有坑
    10 万文档 RAG 落地实战:从 Demo 到生产,我踩过的所有坑 引言:RAG 为什么在企业级场景“必选但难用” 在过去一年里,RAG(Retrieval-Augmented Generation)几乎成了企业落地大模型的标准配置。 原因很简单: 企业数据高度私有,无法直接丢给大模型训练 业务知识更新频繁,微调成本高、周期长 需要“可控、可解释、可追 ...
    077 苍山老农 发表于 2026-1-20 AI大模型
  • 大模型微调评测入门:看懂这些指标,才知道模型好不好
    大模型微调评测入门:看懂这些指标,才知道模型好不好 从“瞎评”到“精准评”:大模型微调核心评测指标全拆解 大家好,我是七七!最近后台收到很多粉丝的共性提问:“我用LoRA微调了Llama 2 7B模型做情感分析,怎么判断它好不好用?”“微调后的文案生成模型,凭感觉比原版好,但是怎么证明?” 这其实戳中了大模型微调的 ...
    087 老者荣耀 发表于 2026-1-19 AI大模型
  • 民用卡 vs 专业卡 vs 云 GPU:大模型微调该选哪种?
    民用卡 vs 专业卡 vs 云 GPU:大模型微调该选哪种? 大模型微调 GPU 选型无优劣,核心是场景与成本的精准适配 大家好,我是七七!最近后台收到的GPU选型问题快堆成山了:学生党问“16G民用卡能不能微调7B模型”,小团队纠结“买专业卡还是租云GPU”,企业负责人困惑“大规模微调该配多少张专业卡集群”。 其实三类GPU没有 ...
    016 马夫小韩 发表于 2026-1-19 AI大模型
  • 大模型成本刺客退散!1/3算力跑出同等效果的秘诀
    大模型成本刺客退散!1/3算力跑出同等效果的秘诀 破解算力成本难题,1/3 算力实现同等效果 大家好,我是七七!前阵子帮一个创业团队做大模型落地咨询,他们吐槽最狠的就是算力成本——微调一个7B模型,用云GPU跑一次要花800块,推理时高并发场景每月算力账单超2万,本来小团队预算就紧,硬生生被算力拖慢了项目进度。 其实 ...
    04 博超简谈 发表于 2026-1-19 AI大模型
  • 大模型从“瞎聊”到“干活”:指令微调核心逻辑全拆解
    大模型从“瞎聊”到“干活”:指令微调核心逻辑全拆解 指令微调破局,让大模型从 “瞎聊” 变 “能干” 大家好,我是七七!刚入门大模型时,我总被一个问题困扰:明明Llama 2、Qwen这些模型能聊天说地,可一让它干具体活就掉链子——让它写电商文案,通篇空话套话;让它整理会议纪要,逻辑混乱漏重点;让它做客服话术,答 ...
    067 冬天的夕阳 发表于 2026-1-18 AI大模型
  • 5 分钟搞懂开源大模型选型核心维度,16G显卡也能选对
    5 分钟搞懂开源大模型选型核心维度,16G显卡也能选对 快速拿捏开源大模型选型,关键维度一文说清 大家好,我是七七!刚入门大模型的时候,我踩过最蠢的坑就是“盲目跟风选模型”——当时看到朋友圈都在晒Llama 2 70B,脑子一热就下载了,结果16G显卡直接OOM(显存溢出),折腾了整整一天,最后发现自己只是想做个简单的中 ...
    099 道具服 发表于 2026-1-18 AI大模型
  • 告别盲目试错!大模型微调核心参数的“油门、档位与里程
    告别盲目试错!大模型微调核心参数的“油门、档位与里程 (一)引言:参数没调对,微调全白费 大家好,我是七七!刚入门大模型微调时,我踩过最致命的坑就是“瞎调参数”——拿着7B模型,随便设个学习率、batch_size就跑训练,结果要么模型不收敛(损失一动不动),要么显存直接炸了,折腾两三天都没调出正经效果。 后来跟 ...
  • 解密Prompt系列68. 告别逐词蹦字 - 重塑 Transformer 的推理范式
    Transformer 的核心范式一直是“Next Token Prediction”——像接龙一样,一个词一个词地往后蹦。虽然 OpenAI o1 和 DeepSeek-R1 通过 Chain of Thought (CoT) 开启了“慢思考”时代,但其本质依然是通过生成更多的显性 Token 来换取计算时间。 这就带来了一个巨大的效率悖论:为了想得深,必须说得多。这一章我们看四篇极 ...
    040 人间一两风 发表于 2026-1-15 AI大模型
  • 通义深度搜索
    简介 通义深度研究产品,又称深度搜索智能体Deep Search Agent,基于广受欢迎的通义开源 WebSailor/DeepResearch开源项目增强而来,为用户打造的端到端智能深度搜索Agent API,可广泛应用于本地+联网知识库、长文报告写作、金融分析、法律咨询、市场研究等应用场景 通义深度搜索Agent,通过多阶段预 ...
    085 吴吉厚 发表于 2026-1-13 AI大模型
  • Windows 环境下 llama.cpp 编译 + Qwen 模型本地部署全指南
    在大模型落地场景中,本地轻量化部署因低延迟、高隐私性、无需依赖云端算力等优势,成为开发者与 AI 爱好者的热门需求。本文聚焦 Windows 10/11(64 位)环境,详细拆解 llama.cpp 工具的编译流程(支持 CPU/GPU 双模式,GPU 加速需依赖 NVIDIA CUDA),并指导如何通过 modelscope 下载 GGUF 格式的 Qwen-7B-Chat 模型,最 ...
    093 客观侠 发表于 2026-1-10 AI大模型
  • 下一页 »

    快速发帖

    还可输入 180 个字符
    您需要登录后才可以发帖 登录 | 立即注册

    本版积分规则

    相关侵权、举报、投诉及建议等,请发 E-mail:qiongdian@foxmail.com

    Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.

    在本版发帖返回顶部