大模型基础（一）核心概念规整

此刻啥也不想 · 发表于 2025-11-13 10:15:00

基础概念梳理

名词/概念词	专业解释	非专业举例说明
参数	模型内部可调整的数值，通过在大量数据上训练学习而得。它们是模型知识的载体，决定了模型如何处理输入并产生输出。	好比一个超级大脑的神经元连接强度和数量。参数越多，这个“大脑”的结构越复杂，能记住和理解的知识就越多（比如GPT-3有1750亿个参数）。
Transformer 架构	一种基于“自注意力机制”的深度学习模型架构。它是当今绝大多数LLM和VLM的基石，能高效地处理序列数据（如文本），理解单词之间的关系。	就像一个高效的阅读小组。小组在阅读一篇文章时，每个成员（注意力头）都会专注于文章中不同词语之间的联系（比如“它”指代的是什么），并共同理解全文意思。
分词	将原始文本分割成模型能够理解的更小单元（如词语、子词或字符）的过程。这是文本输入模型前的必要步骤。	就像我们学英语要把句子拆成单词一样。比如“I'm learning.” 会被分词成 `["I", "'", "m", "learning", "."]`这几个单元给模型处理。
预训练	模型训练的第一阶段，在海量无标注数据上通过自监督学习（如预测下一个词）来学习语言的通用知识、语法和事实。这是一个“通识教育”的过程。	让模型“博览群书”，像一个人读完了整个互联网，学会了语言的规律和世界的常识，但它还不知道具体要完成什么任务。
微调	在预训练模型的基础上，使用特定任务的小规模、高质量数据对其进行额外训练，使其适应特定领域或任务（如法律问答、客服对话）。	给那个“博览群书”的模型进行“职业培训”。比如，用大量的医患对话记录去微调模型，它就能成为一个专业的医疗问答助手。
提示/提示词	用户提供给模型的指令或问题，用于引导模型产生期望的输出。提示词的质量直接影响模型回答的效果。	就像你向一个知识渊博但需要明确指引的助手提问。模糊的提示：“说点关于狗的事”。清晰的提示：“请列举三种最受欢迎的家庭犬种及其特点。”
提示工程	设计和优化提示词的技术和艺术，旨在更有效、更可靠地激发模型的能力，得到更准确、相关的回答。	学习如何与这个大模型助手高效沟通的“话术”。比如，在提示词中加入“一步一步地思考”可以引导模型展示其推理过程。
上下文窗口	模型在一次处理时所能考虑的提示词和生成文本的总长度限制。它就像是模型的“短期工作记忆”。	就像你和人聊天时，对方能记住并参考的最近对话内容长度。如果对话太长，他可能会忘记最开始说了什么。上下文窗口就是模型的“记忆跨度”。
思维链	一种提示技术，要求模型在给出最终答案前，先输出其推理的中间步骤。这能显著提高模型在复杂推理任务上的准确性。	像小学生解数学应用题，被要求“写出计算过程”。模型一步步推理（“首先...，然后...，因此...”），最终得出答案，这样更容易发现和纠正错误。
对齐	通过技术手段（如RLHF）使模型的行为与人类的价值观、意图和偏好保持一致，使其变得有用、诚实且无害。	不仅让模型“聪明”，还要让它“有教养、守规矩”。避免它生成有害、有偏见或胡说八道的内容，成为一个负责任的人工智能。
人类反馈强化学习	一种重要的对齐技术。利用人类对模型不同回答的偏好评分（哪个更好）来训练模型，使其逐步学会选择更符合人类偏好的回答。	“师傅带徒弟”。人类师傅查看模型给出的几个答案，指出哪个更好（打分），模型（徒弟）根据反馈不断调整自己，越来越接近师傅的要求。
知识蒸馏	将大型、复杂模型（“教师模型”）的知识“蒸馏”或压缩到小型、高效模型（“学生模型”）中的技术。目的是在保持性能的同时，减小模型体积、降低部署成本。	就像把一本百科全书（教师模型）的精华知识，总结成一本便携的考前重点小册子（学生模型）。小册子更轻便、查阅更快，但核心知识都在。
幻觉	指模型生成的内容在事实上是不正确的或毫无根据的，但模型以非常自信的方式呈现出来。这是大模型目前面临的主要挑战之一。	模型在“一本正经地胡说八道”。比如你问它“是谁发现了相对论？”，它可能会回答“是爱因斯坦和牛顿共同发现的”，这听起来合理但实际上是错误的。
多模态	模型能够处理和生成多种类型的信息（模态），如文本、图像、音频、视频等。VLM（视觉语言模型）就是文本和图像多模态的典型代表。	一个“全能型艺术家”，既能根据文字描述作画（文生图），也能看一张图然后写出故事（图生文），打破了文字和图像的界限。
视觉语言模型	一种特殊的大模型，能够同时理解视觉（图像/视频）和语言（文本）信息，并在两者之间建立联系、进行推理和生成。	像一个具备视觉能力的智能助手。你给它一张照片，问“图片里这个人为什么开心？”它能分析图片内容（人物表情、环境）并给出合理回答。

核心组件与架构基础

名词/概念词	专业解释	非专业举例说明
神经网络	受大脑神经元网络启发的一种计算模型。由大量相互连接的“神经元”（节点）组成，通过调整连接强度（权重）来学习数据中的复杂模式。	像一个由许多简单的开关（神经元）和电线（连接）组成的巨大电路。通过调整电流（数据）如何流过这个电路，让整个网络学会完成特定任务，比如识别猫的图片。
嵌入	将离散的符号（如单词、图片碎片）转换为高维空间中的连续数值向量。这个向量能够捕获符号的语义信息（如“国王”和“王后”的向量关系类似于“男人”和“女人”）。	给每个单词分配一个“数字身份证”或“坐标”。意思相近的词（如“猫”和“狗”）在空间中的坐标会很接近，而意思无关的词（如“猫”和“汽车”）则相距甚远。
自注意力机制	Transformer架构的核心。允许序列中的每个位置在计算其表示时，权衡序列中所有其他位置的重要性。从而动态地捕捉序列内部的全局依赖关系。	读一句话时，大脑会瞬间关注到与当前词最相关的词。比如读“它”的时候，你会自动关注前面提到的核心名词（如“苹果”），从而理解“它”指代什么。自注意力机制就是让模型自动完成这个过程。
前馈神经网络	Transformer架构中的一个子模块，每个位置（如每个词）的信息会独立地通过一个小型神经网络，进行非线性变换，增加模型的表达能力。	在自注意力机制完成了“信息混合”之后，每个词再“独立思考”一下，深化自己对当前语境下的理解。
层归一化	一种稳定训练过程的技术，对每一层神经元的输出进行标准化（调整均值和方差），防止梯度爆炸或消失，加速模型收敛。	就像在团队协作中，定期对每个人的工作输出进行“校准”，确保大家的贡献在同一个量级上，避免个别人的输出过大或过小影响整体进度。
位置编码	因为Transformer本身不包含顺序信息，需要额外注入每个词在序列中的位置信息。通常通过一组特定的正弦余弦函数或可学习的参数来实现。	给句子中的每个词标上“1，2，3...”的序号。这样模型就知道“狗追猫”和“猫追狗”是不同的，即使词是一样的。
解码器 & 编码器	Transformer的两种主要架构。编码器（如BERT）擅长理解输入，用于分类、提取等任务；解码器（如GPT系列）擅长根据输入生成序列，用于写作、翻译等。	编码器像是一个“阅读理解专家”，你给它一篇文章，它告诉你文章的中心思想。解码器像是一个“写作大师”，你给它一个开头，它能把故事续写下去。

数据与训练流程

名词/概念词	专业解释	非专业举例说明
语言建模	预训练的核心任务，即根据上文预测下一个词（或遮蔽的词）。这是一个自监督学习任务，无需人工标注。	“完形填空”或“单词接龙”。给定“今天天气很好，我们一起去__”，模型的任务是预测最可能的下一个词，如“公园”。
损失函数	一个衡量模型预测输出与真实值之间差距的函数。训练的目标就是最小化这个损失值。	“考试的评分标准”。模型每次预测后，根据这个标准给自己打分，目标是让分数越来越高（错误越来越少）。
梯度下降	优化模型参数的核心算法。通过计算损失函数相对于模型参数的梯度（导数），沿着梯度下降的方向更新参数，以最小化损失。	想象你在山上蒙着眼找下山的路。你用脚感受一下哪个方向最陡（梯度），然后往那个方向走一小步（学习率）。重复这个过程，最终就能走到山底（损失最小）。
反向传播	高效计算整个神经网络梯度的方法。它先进行前向传播计算输出和损失，然后将损失从输出层向输入层反向传播，利用链式法则计算每个参数的梯度。	就像追查一个重大事故的责任链。最终损失（事故后果）发生后，从最后一步开始，一步步反向追溯，找出每个环节（每个参数）应该承担多少责任（梯度）。
过拟合	模型在训练数据上表现很好，但在未见过的测试数据上表现很差。意味着模型只是“死记硬背”了训练集，而没有学到泛化的规律。	一个学生只会背考题，考试如果遇到原题能考满分，但题目稍作变化就不会了。这说明他没有真正理解知识。
泛化	模型在未见过的数据上表现良好的能力，是模型追求的最终目标。	学生真正掌握了知识点和解题方法，无论考试题目如何变化，他都能举一反三，考出好成绩。
困惑度	评估语言模型好坏的常用指标。直观理解是模型在预测下一个词时的“平均分支数”或不确定性。困惑度越低，模型越好。	相当于模型的 “懵逼指数”。指数越低，说明模型对下一个该是什么词越确定、越不困惑。比如，对于“1+1=_”这个上文，好模型的困惑度会很低（因为它很确定是“2”）。

模型能力、评估与限制

名词/概念词	专业解释	非专业举例说明
涌现能力	当模型规模（参数、数据、算力）超过某个临界点时，模型表现出的在小型模型中不存在的新能力（如推理、编程等）。这些能力并非被明确编程的。	就像无数个简单的神经元连接在一起，突然产生了“意识”或“智慧”这种高级属性。当模型的“脑容量”足够大时，它就“自然而然”地会了一些意想不到的技能。
指令微调	在预训练后，使用大量由指令和对应回答组成的数据对模型进行微调，使其能更好地理解和遵循人类的指令。这是让模型变得“有用”的关键一步。	预训练模型是一个“无所不知但很散漫的学者”，指令微调就是对它进行“职业化训练”，让它学会用“好的，先生/女士”这样的方式回答问题，成为一个合格的“助手”。
思维链	上面表格有，但值得再提：一种通过提示词激发模型复杂推理能力的技术。	“把思考过程大声说出来”。
缩放定律	描述了模型性能与规模（模型参数、训练数据量、计算量）之间的可预测的幂律关系。指导着业界如何有效投入资源以提升模型能力。	类似于经济学中的 “投入-产出”关系模型。根据这个定律，我们可以大致预测，如果想把模型能力提升10倍，大概需要投入多少算力和数据。
幻觉	上面表格有，但这是核心限制：模型生成不准确或虚构内容。	“创造性地撒谎”。
偏见与公平性	由于训练数据本身存在的社会偏见（如性别、种族歧视），模型也会学会并放大这些偏见，导致其输出不公平。	“垃圾进，垃圾出”。如果模型用充满偏见的社会新闻数据训练，它就可能成为一个有偏见的模型。

关键技术方法与技巧

名词/概念词	专业解释	非专业举例说明
检索增强生成	解决模型幻觉和知识陈旧问题的方法。在生成答案前，先从外部知识库（如搜索引擎、数据库）检索相关信息，然后将检索到的信息和问题一起作为提示词给模型，让模型根据可靠信息生成答案。	让模型在回答问题前，先“联网搜索”一下最新资料，而不是只依赖它训练时记住的、可能过时的知识。这就像开卷考试，允许查资料。
量化	一种模型压缩技术，将模型参数的数值精度从高（如32位浮点数）降低到低（如8位整数），大幅减少模型体积和推理耗时，便于在边缘设备部署。	把一张高清无损的专业单反照片（模型），转换成一张高质量的手机JPG照片。体积小了很多，传输更快，虽然损失了一些细节，但主要信息都在，完全够日常使用。
低秩适应	一种高效的微调技术。在微调时，不更新整个巨大的模型参数，只更新额外注入的一些小型矩阵（低秩适配器），从而用极小的计算成本让模型适应新任务。	不想重装整个电脑系统（全量微调），而是安装一个小的插件或皮肤（LoRA模块），就能让系统拥有新的主题和功能。
思维树/图	一种高级提示技术，让模型对一个问题进行多种可能的推理路径探索，并评估这些路径，最终选择最优路径得出答案，显著提升复杂问题的解决能力。	像下棋时的“多步推演”，在脑海中思考“如果我走这里，对方可能会走那里，然后我可以...”，比较不同走法的后果，选择最优解。

来源：https://www.cnblogs.com/lwh-note/p/19216782

大模型基础（一）核心概念规整

基础概念梳理

核心组件与架构基础

数据与训练流程

模型能力、评估与限制

关键技术方法与技巧

浏览过的版块