| 参数 |
模型内部可调整的数值,通过在大量数据上训练学习而得。它们是模型知识的载体,决定了模型如何处理输入并产生输出。 |
好比一个超级大脑的神经元连接强度和数量。参数越多,这个“大脑”的结构越复杂,能记住和理解的知识就越多(比如GPT-3有1750亿个参数)。 |
| Transformer 架构 |
一种基于“自注意力机制”的深度学习模型架构。它是当今绝大多数LLM和VLM的基石,能高效地处理序列数据(如文本),理解单词之间的关系。 |
就像一个高效的阅读小组。小组在阅读一篇文章时,每个成员(注意力头)都会专注于文章中不同词语之间的联系(比如“它”指代的是什么),并共同理解全文意思。 |
| 分词 |
将原始文本分割成模型能够理解的更小单元(如词语、子词或字符)的过程。这是文本输入模型前的必要步骤。 |
就像我们学英语要把句子拆成单词一样。比如“I'm learning.” 会被分词成 ["I", "'", "m", "learning", "."]这几个单元给模型处理。 |
| 预训练 |
模型训练的第一阶段,在海量无标注数据上通过自监督学习(如预测下一个词)来学习语言的通用知识、语法和事实。这是一个“通识教育”的过程。 |
让模型“博览群书”,像一个人读完了整个互联网,学会了语言的规律和世界的常识,但它还不知道具体要完成什么任务。 |
| 微调 |
在预训练模型的基础上,使用特定任务的小规模、高质量数据对其进行额外训练,使其适应特定领域或任务(如法律问答、客服对话)。 |
给那个“博览群书”的模型进行“职业培训”。比如,用大量的医患对话记录去微调模型,它就能成为一个专业的医疗问答助手。 |
| 提示/提示词 |
用户提供给模型的指令或问题,用于引导模型产生期望的输出。提示词的质量直接影响模型回答的效果。 |
就像你向一个知识渊博但需要明确指引的助手提问。模糊的提示:“说点关于狗的事”。清晰的提示:“请列举三种最受欢迎的家庭犬种及其特点。” |
| 提示工程 |
设计和优化提示词的技术和艺术,旨在更有效、更可靠地激发模型的能力,得到更准确、相关的回答。 |
学习如何与这个大模型助手高效沟通的“话术”。比如,在提示词中加入“一步一步地思考”可以引导模型展示其推理过程。 |
| 上下文窗口 |
模型在一次处理时所能考虑的提示词和生成文本的总长度限制。它就像是模型的“短期工作记忆”。 |
就像你和人聊天时,对方能记住并参考的最近对话内容长度。如果对话太长,他可能会忘记最开始说了什么。上下文窗口就是模型的“记忆跨度”。 |
| 思维链 |
一种提示技术,要求模型在给出最终答案前,先输出其推理的中间步骤。这能显著提高模型在复杂推理任务上的准确性。 |
像小学生解数学应用题,被要求“写出计算过程”。模型一步步推理(“首先...,然后...,因此...”),最终得出答案,这样更容易发现和纠正错误。 |
| 对齐 |
通过技术手段(如RLHF)使模型的行为与人类的价值观、意图和偏好保持一致,使其变得有用、诚实且无害。 |
不仅让模型“聪明”,还要让它“有教养、守规矩”。避免它生成有害、有偏见或胡说八道的内容,成为一个负责任的人工智能。 |
| 人类反馈强化学习 |
一种重要的对齐技术。利用人类对模型不同回答的偏好评分(哪个更好)来训练模型,使其逐步学会选择更符合人类偏好的回答。 |
“师傅带徒弟”。人类师傅查看模型给出的几个答案,指出哪个更好(打分),模型(徒弟)根据反馈不断调整自己,越来越接近师傅的要求。 |
| 知识蒸馏 |
将大型、复杂模型(“教师模型”)的知识“蒸馏”或压缩到小型、高效模型(“学生模型”)中的技术。目的是在保持性能的同时,减小模型体积、降低部署成本。 |
就像把一本百科全书(教师模型)的精华知识,总结成一本便携的考前重点小册子(学生模型)。小册子更轻便、查阅更快,但核心知识都在。 |
| 幻觉 |
指模型生成的内容在事实上是不正确的或毫无根据的,但模型以非常自信的方式呈现出来。这是大模型目前面临的主要挑战之一。 |
模型在“一本正经地胡说八道”。比如你问它“是谁发现了相对论?”,它可能会回答“是爱因斯坦和牛顿共同发现的”,这听起来合理但实际上是错误的。 |
| 多模态 |
模型能够处理和生成多种类型的信息(模态),如文本、图像、音频、视频等。VLM(视觉语言模型)就是文本和图像多模态的典型代表。 |
一个“全能型艺术家”,既能根据文字描述作画(文生图),也能看一张图然后写出故事(图生文),打破了文字和图像的界限。 |
| 视觉语言模型 |
一种特殊的大模型,能够同时理解视觉(图像/视频)和语言(文本)信息,并在两者之间建立联系、进行推理和生成。 |
像一个具备视觉能力的智能助手。你给它一张照片,问“图片里这个人为什么开心?”它能分析图片内容(人物表情、环境)并给出合理回答。
|