一文读懂MOE：大模型背后的"专家分工"智慧

用户晴天 發表於 2026-2-27 12:47:00

一文读懂MOE：大模型背后的"专家分工"智慧

<h1 id="一文读懂moe大模型背后的专家分工智慧">一文读懂MOE：大模型背后的"专家分工"智慧</h1>
<blockquote>
本文基于综述论文：A Comprehensive Survey of Mixture-of-Experts Algorithms, Theory, and Applications(Siyuan Mu and Sen Lin)。如需深入了解，建议阅读原文。
</blockquote>
<h2 id="重点内容">重点内容</h2>
<ul>
<li>MoE（混合专家模型） 是当前大模型扩展的核心技术之一，DeepSeek、Mixtral、GPT-4 等明星模型都在用</li>
<li>核心思想：不是所有参数都参与每次计算，而是动态选择最相关的"专家"子网络来处理输入，省算力、提性能</li>
<li>关键组件包括：门控函数（Router）、专家网络（Experts）、路由策略（Routing）、训练策略和系统设计</li>
<li>MoE 已渗透到持续学习、元学习、多任务学习、强化学习、联邦学习等多个范式</li>
<li>在计算机视觉（分类/检测/分割/生成）和自然语言处理（理解/生成/翻译/多模态）中均有广泛应用</li>
<li>本文基于 Siyuan Mu & Sen Lin 的最新综述，带你系统梳理 MoE 的全貌</li>
</ul>
<h2 id="开篇为什么你需要关注-moe">开篇：为什么你需要关注 MoE？</h2>
想象一下，你经营一家医院。面对不同的病人，你不会让所有医生同时出诊——而是根据病情，把病人分配给最合适的专科医生。心脏问题找心内科，骨折找骨科，各司其职，效率最高。
MoE（Mixture-of-Experts，混合专家模型）的思路如出一辙。
当今 AI 大模型面临两大核心挑战：
<ol>
<li>算力爆炸：模型越来越大，训练和部署成本飙升</li>
<li>数据异质性：现实数据极其复杂多样，单一模型难以"面面俱到"</li>
</ol>
MoE 的解法很优雅——不激活所有参数，只让最相关的"专家"子网络工作。这样既能拥有超大模型的容量，又能控制实际计算开销。
DeepSeek-V3、Mixtral 8×7B、GPT-4（据传）……这些刷屏的模型背后，都有 MoE 的身影。
本文基于一篇最新的全面综述论文，带你从零开始理解 MoE 的设计、算法、理论与应用。
<img alt="混合专家（MoE）的路线图" loading="lazy" src="https://cdn.jsdelivr.net/gh/ChunFeng-Come/My-Image/assets/Figure%201.png" class="lazyload">
<h2 id="一moe-基础架构四大核心组件">一、MoE 基础架构：四大核心组件</h2>
<img alt="标准MoE架构的简单示意图" loading="lazy" src="https://cdn.jsdelivr.net/gh/ChunFeng-Come/My-Image/assets/2026-2-19%20181415%20Figure%202.jpg" class="lazyload">
一个标准的 MoE 层由以下部分组成：门控函数（Router/Gating） 决定"谁来干活"，专家网络（Experts） 负责"干活"，路由策略 决定"在哪个粒度上分配"，训练策略 确保"大家都有活干"。
<h3 id="11-门控函数gating-function谁来接诊">1.1 门控函数（Gating Function）：谁来接诊？</h3>
门控函数是 MoE 的"调度中心"，决定每个输入应该交给哪些专家处理。
最常用的方案：线性门控 + Softmax + TopK
公式很直观：先用一个线性层给每个专家打分，再通过 TopK 选出得分最高的 K 个专家，最后用 Softmax 归一化权重。
设计门控函数时有两个关键原则：
<ul>
<li>准确性：能识别输入特征，把相似的数据分给同一个专家</li>
<li>均衡性：数据要尽量均匀分配，避免某些专家"累死"、其他专家"闲死"</li>
</ul>
除了线性门控，还有一些变体值得关注：
<ul>
<li>Expert Choice 门控：反转视角，让专家主动选择要处理的 token（见综述 Section II-A）</li>
<li>Soft MoE：不再做离散的 token 分配，而是对所有 token 做加权平均生成输入，避免了 token 丢弃问题</li>
<li>基于 Cosine 相似度的门控：用余弦相似度替代线性打分，对输入尺度更鲁棒</li>
</ul>
<h3 id="12-专家网络expert-networks各有所长">1.2 专家网络（Expert Networks）：各有所长</h3>
<img alt="MoE层示意图的各种专家网络" loading="lazy" src="https://cdn.jsdelivr.net/gh/ChunFeng-Come/My-Image/assets/MoE%E5%B1%82%E7%A4%BA%E6%84%8F%E5%9B%BE%E7%9A%84%E5%90%84%E7%A7%8D%E4%B8%93%E5%AE%B6%E7%BD%91%E7%BB%9C.jpg" class="lazyload">
专家网络是 MoE 的"干活主力"。实践中，MoE 层通常嵌入到已有网络结构中，替换特定层。主流方案有三种：
方案一：替换 Transformer 的 FFN 层（最主流）
这是目前最广泛的做法。Transformer 中的 FFN 层天然具有较高的稀疏性和领域特异性，非常适合用 MoE 替换。Switch Transformer、Mixtral、DeepSeek 系列都采用了这种设计。
方案二：替换注意力层（MoA / MoH）
Mixture-of-Head Attention（MoH）将多头注意力中的每个头视为一个"专家"，通过路由机制动态选择激活哪些头，减少冗余计算。
方案三：应用于 CNN 层
在计算机视觉中，CNN 专家可以利用卷积的局部特征提取优势，实现更精细的任务分配。
<h3 id="13-路由策略routing-strategy在哪个粒度上分工">1.3 路由策略（Routing Strategy）：在哪个粒度上分工？</h3>
路由策略决定了"在什么层级上做专家分配"，这直接影响模型的灵活性和效率。
<table>
<thead>
<tr>
<th>路由级别</th>
<th>说明</th>
<th>适用场景</th>
</tr>
</thead>
<tbody>
<tr>
<td>Token 级别</td>
<td>每个 token 独立路由，最细粒度</td>
<td>LLM、通用场景（最常用）</td>
</tr>
<tr>
<td>模态级别</td>
<td>按输入模态（文本/图像/音频）路由</td>
<td>多模态模型</td>
</tr>
<tr>
<td>任务级别</td>
<td>按任务类型路由，推理时只加载相关专家</td>
<td>多任务学习，节省内存</td>
</tr>
<tr>
<td>其他级别</td>
<td>上下文级别、属性级别等</td>
<td>复杂多任务场景</td>
</tr>
</tbody>
</table>
Token 级别路由是目前最主流的选择，因为它粒度最细、灵活性最高。但任务级别路由在推理时有明显优势——只需加载当前任务相关的专家，大幅降低通信和内存开销。
<h3 id="14-训练策略让每个专家都有活干">1.4 训练策略：让每个专家都"有活干"</h3>
MoE 训练中最头疼的问题是 专家坍塌（Expert Collapse）——少数专家被频繁选中，其余专家几乎不被使用，导致模型退化为一个小模型。
核心解法：辅助损失函数（Auxiliary Loss）
<ul>
<li>负载均衡损失（Load Balancing Loss）：惩罚不均匀的专家分配，鼓励所有专家被均匀使用</li>
<li>重要性损失（Importance Loss）：确保每个专家获得的总权重大致相等</li>
<li>Z-loss：约束 Router 的 logits 不要过大，防止训练不稳定（Switch Transformer 提出）</li>
</ul>
其他训练技巧：
<ul>
<li>Token 丢弃与容量因子：为每个专家设置容量上限，超出的 token 直接跳过该专家（见综述 Section II-D）</li>
<li>Dropout 正则化：在层级化 MoE（HMoE）中随机丢弃不同分支的专家，提升泛化能力</li>
<li>BPR（Batch Prioritized Routing）：优先处理重要样本，实现稀疏性复用</li>
</ul>
<h2 id="二系统设计moe-的工程挑战">二、系统设计：MoE 的工程挑战</h2>
MoE 不只是算法问题，更是系统工程问题。综述的 Section II-E 专门讨论了三大系统挑战：
<h3 id="21-通信开销">2.1 通信开销</h3>
MoE 的 All-to-All 通信模式是性能瓶颈。每个设备上的 token 需要发送到持有对应专家的设备上，处理完再发回来。
优化方案：
<ul>
<li>TUTEL、FasterMoE 等系统通过通信-计算重叠来隐藏延迟</li>
<li>EdgeMoE、M3ViT 利用硬件特性设计更高效的通信模式</li>
</ul>
<h3 id="22-并行策略">2.2 并行策略</h3>
<ul>
<li>专家并行（Expert Parallelism）：不同专家分布在不同设备上</li>
<li>数据并行 + 模型并行 + 张量并行：可灵活组合</li>
<li>实际部署中通常采用混合并行策略</li>
</ul>
<h3 id="23-内存管理">2.3 内存管理</h3>
MoE 模型参数量巨大（专家多），可能超出单设备内存。
<ul>
<li>Switch Transformer 提出跨设备参数迁移策略</li>
<li>DeepSpeed-MoE 采用分层存储管理（高速缓存 + 远程存储）</li>
</ul>
<img alt="MoE系统架构概述" loading="lazy" src="https://cdn.jsdelivr.net/gh/ChunFeng-Come/My-Image/assets/2026-2-19%20182925MoE%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84%E6%A6%82%E8%BF%B0.png" class="lazyload">
<h2 id="三moe-在各学习范式中的应用">三、MoE 在各学习范式中的应用</h2>
MoE 不仅仅是大语言模型的专属技术。综述的第三章系统梳理了 MoE 在五大学习范式中的应用。
<h3 id="31-持续学习continual-learning">3.1 持续学习（Continual Learning）</h3>
核心问题：模型学习新任务时，如何不遗忘旧知识？
MoE 天然适合持续学习——可以为新任务添加新专家，同时保留旧专家的知识。
代表性工作：
<ul>
<li>Lifelong-MoE：为新数据分布引入新专家，同时用正则化策略保留旧知识</li>
<li>PMoE：浅层处理通用知识，深层逐步添加新专家处理新知识</li>
<li>MoE-Adapters：基于 CLIP 模型，用 Adapter 作为专家，配合任务特定路由器</li>
</ul>
<blockquote>
💡 关键洞察：MoE 的模块化特性使其成为"抗遗忘"的天然选择——新知识加新专家，旧知识不受影响。
</blockquote>
<h3 id="32-元学习meta-learning">3.2 元学习（Meta-Learning）</h3>
核心问题：如何从少量数据快速学习新任务？
元学习假设所有任务来自同一分布，但现实中任务差异可能很大。MoE 通过多个专家捕捉不同任务分布，突破了这一限制。
代表性工作：
<ul>
<li>MixER：用 Top-1 MoE 增强上下文元学习，每个专家对应一个元模型</li>
<li>Meta-DMoE：用 MoE 处理多源域适应问题，通过度量学习捕捉源域与目标域的相似性</li>
</ul>
<h3 id="33-多任务学习multi-task-learning">3.3 多任务学习（Multi-task Learning）</h3>
核心问题：多个任务共享模型时，如何避免任务间的负迁移？
MoE 的"专家分工"机制天然适合多任务场景——不同专家可以专注于不同任务。
代表性工作：
<ul>
<li>MMoE（Multi-gate MoE）：为每个任务设置独立的门控网络，共享专家池</li>
<li>MoME（Mixture-of-Masked-Experts）：从过参数化的基础网络中提取专家子网络，而非训练独立子网络</li>
<li>MOOR：引入 Gram-Schmidt 正交化，强制专家生成互相正交的特征，避免冗余</li>
</ul>
在推荐系统中，多任务学习 + MoE 的组合尤其受欢迎，因为推荐系统天然需要同时优化多个目标（点击率、转化率、停留时长等）。
<h3 id="34-强化学习reinforcement-learning">3.4 强化学习（Reinforcement Learning）</h3>
核心问题：高维状态空间和复杂动态环境下，如何提升策略的灵活性？
MoE 通过动态选择专家来应对不同环境状态，增强了 RL 智能体的适应能力。
代表性工作：
<ul>
<li>模块化 RL（Modular RL）：将复杂 RL 问题分解为多个模块，每个模块处理特定子任务。早期工作 MMRL 就采用了多模块架构，每个模块包含动力学模型和控制器</li>
<li>Soft MoE + Deep RL：研究发现，在深度 RL 中用 Soft MoE 替换倒数第二层，可以显著提升多种 RL 算法的性能</li>
<li>MENTOR：用 MoE 架构替换视觉 RL 中的 MLP 层，让机器人从视觉输入中学习技能</li>
<li>SMOSE：基于 Top-1 MoE 的连续控制方法，每个专家学习不同的基础技能</li>
</ul>
<blockquote>
💡 关键洞察：MoE 在 RL 中的优势在于处理非平稳性——环境不断变化时，不同专家可以适应不同的环境状态。
</blockquote>
<h3 id="35-联邦学习federated-learning">3.5 联邦学习（Federated Learning）</h3>
核心问题：分布式客户端数据异质性大，如何训练统一模型？
联邦学习中，不同客户端的数据分布可能差异巨大（Non-IID）。MoE 可以为不同数据分布分配不同专家。
代表性工作：
<ul>
<li>将客户端标识信息纳入门控决策，让路由器感知数据来源</li>
<li>先训练通用模型，每个客户端只微调浅层参数</li>
<li>动态确定 Top-K 专家数量，根据客户端资源条件灵活调整</li>
<li>设计退出机制，保护敏感数据客户端的隐私</li>
</ul>
联邦学习中的另一大挑战是通信开销。MoE 的稀疏激活特性有助于减少每轮通信的数据量。
<h2 id="四理论视角moe-的数学基础">四、理论视角：MoE 的数学基础</h2>
综述的第四章梳理了 MoE 的理论研究，主要围绕以下问题：
<h3 id="41-收敛性与参数估计">4.1 收敛性与参数估计</h3>
<ul>
<li>Softmax 门控的收敛速率：当部分专家参数趋近于零（"消失"）时，标准 Softmax 门控的参数估计速度会显著下降</li>
<li>改进方案：使用修改后的 Softmax 门控函数（如有界变换函数 M(X)），消除门控参数与专家参数之间的耦合，提升收敛速度</li>
</ul>
<h3 id="42-深度学习中的-moe-理论">4.2 深度学习中的 MoE 理论</h3>
这是一个相对新的方向。代表性工作包括：
<ul>
<li>证明了在特定二分类任务上，非线性 MoE 模型优于单专家模型和线性 MoE 模型</li>
<li>路由器可以自动学习数据的聚类结构，将数据动态路由到最合适的专家</li>
<li>对 patch 级别路由（pMoE）的理论分析，揭示了 MoE 在视觉任务中的工作机制</li>
</ul>
<blockquote>
💡 理论研究的核心启示：MoE 的优势不仅仅是"大"，而是路由器能够自动发现数据结构，实现比单一模型更精细的分工。
</blockquote>
<h2 id="五应用实战cv-与-nlp-中的-moe">五、应用实战：CV 与 NLP 中的 MoE</h2>
<h3 id="51-计算机视觉">5.1 计算机视觉</h3>
MoE 在 CV 领域的应用覆盖了四大基础任务：
图像分类
<ul>
<li>V-MoE：将 Vision Transformer 中的 MLP 层替换为稀疏 MoE 层，模型扩展到 150 亿参数，在图像分类上展现了显著的效率提升</li>
<li>CLIP-MoE：将 CLIP 模型与 MoE 结合，通过多样化的专家提升视觉-语言对齐能力</li>
</ul>
目标检测
<ul>
<li>MoCaE：发现简单地将不同检测器组合为 MoE 反而会降低性能（因为不公平竞争），提出了 Early/Late Calibration 来校准不同检测器的置信度</li>
<li>DAMEX：数据感知的 MoE 架构，不同专家学习不同数据源的特征，增强泛化能力</li>
</ul>
图像分割
<ul>
<li>将 MoE 应用于语义分割，通过多专家处理不同类别或区域的分割任务</li>
<li>在医学图像分割中，低秩 MoE（Low-rank MoE）用于持续学习场景</li>
</ul>
图像生成
<ul>
<li>RAPHAEL：引入空间 MoE 和时间 MoE 两种专家层。空间 MoE 负责在不同图像区域描绘不同文本概念，时间 MoE 在扩散过程的不同时间步处理不同程度的噪声。数十亿条扩散路径，每条路径就像一位"画家"</li>
<li>MEGAN：多生成器 MoE 架构，每个生成器专注于学习数据集中特定模态的分布</li>
</ul>
<h3 id="52-自然语言处理">5.2 自然语言处理</h3>
自然语言理解（NLU）
<ul>
<li>MoE-LPR：解决多语言理解中的"语言遗忘"问题，通过语言先验路由机制在学习新语言时保持原有语言的性能</li>
<li>MT-TaG：任务感知门控的稀疏 MoE，在多任务 NLU 中表现优异，尤其在低资源任务迁移上</li>
</ul>
自然语言生成（NLG）与机器翻译
<ul>
<li>GShard：Google 的里程碑工作，将 MoE 应用于大规模多语言翻译，在相同硬件条件下显著提升翻译质量和训练效率</li>
<li>DeepSeek-MoE / DeepSeek-V2：通过细粒度专家分割和共享专家隔离，实现了极致的专家特化</li>
<li>Mixtral 8×7B：8 个专家、每次激活 2 个，以 12.9B 激活参数达到了接近 70B 密集模型的性能</li>
</ul>
多模态融合
<ul>
<li>LIMoE：首个大规模多模态 MoE 模型，动态调整不同模态的重要性权重</li>
<li>MoPE-BAF：设计文本提示专家、图像提示专家和统一提示专家，通过块感知融合机制实现跨模态交互</li>
</ul>
<img alt="MoE应用程序环境" loading="lazy" src="https://cdn.jsdelivr.net/gh/ChunFeng-Come/My-Image/assets/MoE%E5%BA%94%E7%94%A8%E7%A8%8B%E5%BA%8F%E7%8E%AF%E5%A2%83.png" class="lazyload">
<h2 id="六未来方向moe-的下一步在哪里">六、未来方向：MoE 的下一步在哪里？</h2>
综述在 Section VI 中指出了六大未来方向：
1. 训练稳定性与负载均衡
<ul>
<li>当前的辅助损失函数仍然是"打补丁"式的解法，需要更根本的理论指导</li>
<li>如何在不牺牲模型性能的前提下实现真正均衡的专家利用率？</li>
</ul>
2. 训练与系统效率
<ul>
<li>All-to-All 通信仍是瓶颈，需要更高效的通信协议</li>
<li>推理阶段的专家缓存和调度策略有待优化</li>
</ul>
3. 架构设计
<ul>
<li>超越 FFN 替换：探索在注意力层、嵌入层等更多位置引入 MoE</li>
<li>自适应专家数量：根据输入复杂度动态调整激活的专家数</li>
</ul>
4. 理论发展
<ul>
<li>当前理论主要集中在浅层 MoE，深度 MoE 的理论分析仍然匮乏</li>
<li>需要更好地理解路由器的学习动态和专家特化机制</li>
</ul>
5. 定制化算法设计
<ul>
<li>针对特定学习范式（持续学习、联邦学习等）设计专用的 MoE 变体</li>
<li>探索 MoE 与其他技术（如 LoRA、Prompt Tuning）的深度融合</li>
</ul>
6. 新应用领域
<ul>
<li>科学计算、药物发现、自动驾驶等领域的 MoE 应用尚待探索</li>
<li>多模态大模型中 MoE 的潜力远未被充分挖掘</li>
</ul>
<h2 id="key-takeaways核心要点">Key Takeaways（核心要点）</h2>
<ol>
<li>MoE 的本质是"条件计算"：不是所有参数都参与每次推理，而是根据输入动态选择子集。这是扩展模型规模同时控制计算成本的关键</li>
<li>门控函数是灵魂：Router 的设计直接决定了 MoE 的性能上限。线性 + TopK 是基线，但 Expert Choice、Soft MoE 等新范式正在崛起</li>
<li>负载均衡是永恒的挑战：专家坍塌问题至今没有完美解法，辅助损失 + 容量因子是当前的"最佳实践"</li>
<li>MoE 不只属于 LLM：从 CV 到 RL，从联邦学习到持续学习，MoE 的"专家分工"思想具有普适性</li>
<li>系统工程同样关键：通信、并行、内存管理——MoE 的落地需要算法和系统的协同优化</li>
<li>理论仍在追赶实践：深度 MoE 的理论基础薄弱，这既是挑战也是研究机会</li>
</ol>
<h2 id="beginner-roadmap入门路线图">Beginner Roadmap（入门路线图）</h2>
如果你刚接触 MoE，建议按以下路径学习：
第一步：理解基础概念（1-2 天）
<ul>
<li>阅读本综述的 Section I 和 Section II，建立对 MoE 架构的整体认知</li>
<li>重点理解：门控函数、TopK 路由、负载均衡损失</li>
</ul>
第二步：动手实现一个简单 MoE（2-3 天）
<ul>
<li>用 PyTorch 实现一个最简单的 MoE 层（线性门控 + 2-4 个 FFN 专家）</li>
<li>推荐参考 HuggingFace 的 <code>transformers</code> 库中 Mixtral 的实现</li>
<li>或者从 <code>fairseq</code> 的 MoE 模块入手</li>
</ul>
第三步：阅读经典论文（1 周）
<ul>
<li>必读：Switch Transformer（Google, 2021）——奠定了现代稀疏 MoE 的基础</li>
<li>必读：Mixtral 8×7B（Mistral AI, 2024）——当前最成功的开源 MoE 模型之一</li>
<li>推荐：DeepSeek-MoE / DeepSeek-V2——细粒度专家设计的代表</li>
<li>推荐：GShard——大规模分布式 MoE 的先驱</li>
</ul>
第四步：深入特定方向（按兴趣选择）
<ul>
<li>对 CV 感兴趣 → 阅读 V-MoE、RAPHAEL</li>
<li>对系统优化感兴趣 → 阅读 TUTEL、DeepSpeed-MoE</li>
<li>对理论感兴趣 → 阅读综述 Section IV 引用的论文</li>
<li>对多任务/推荐系统感兴趣 → 阅读 MMoE、PLE</li>
</ul>
第五步：跟踪前沿（持续）
<ul>
<li>关注 arXiv 上 MoE 相关的新论文</li>
<li>关注 DeepSeek、Mistral、Google 等团队的最新发布</li>
</ul>
<h2 id="工程踩坑指南common-pitfalls--engineering-notes">工程踩坑指南（Common Pitfalls & Engineering Notes）</h2>
<blockquote>
⚠️ 坑 1：专家坍塌比你想象的更容易发生
即使加了负载均衡损失，如果超参数没调好（比如辅助损失的权重太小），模型仍然可能退化为只用 1-2 个专家。建议：训练时监控每个专家的利用率，发现不均衡立即调整。
</blockquote>
<blockquote>
⚠️ 坑 2：Token 丢弃会影响训练质量
容量因子（Capacity Factor）设太小会导致大量 token 被丢弃，影响模型学习。设太大又浪费计算资源。经验值：从 1.25 开始调，根据实际负载情况微调。
</blockquote>
<blockquote>
⚠️ 坑 3：All-to-All 通信可能吃掉你的加速收益
MoE 理论上减少了计算量，但如果通信没优化好，实际训练速度可能反而更慢。建议：先在单机多卡上验证，再扩展到多机。使用 NCCL 的 All-to-All 原语，并尝试通信-计算重叠。
</blockquote>
<blockquote>
⚠️ 坑 4：推理时的内存问题
MoE 模型的总参数量远大于激活参数量。推理时如果把所有专家都加载到 GPU 显存中，可能会 OOM。解决方案：专家卸载（offloading）、动态加载、或使用任务级路由只加载相关专家。
</blockquote>
<blockquote>
⚠️ 坑 5：不要盲目增加专家数量
更多专家 ≠ 更好性能。专家数量增加到一定程度后，收益递减，而系统复杂度和通信开销持续增长。找到"甜蜜点"需要实验。
</blockquote>
<h2 id="结语">结语</h2>
MoE 不是一个全新的概念——它的思想可以追溯到 1991 年 Jacobs 等人的开创性工作。但在大模型时代，MoE 焕发了全新的生命力。
从 Switch Transformer 到 DeepSeek-V3，从图像生成到多语言翻译，MoE 正在成为 AI 基础设施的核心组件。它的魅力在于一个朴素的道理：让合适的专家做合适的事。
如果你正在研究或开发大模型，MoE 是一个绕不开的话题。希望这篇文章能帮你建立起对 MoE 的系统认知，也欢迎在评论区交流你的实践经验。
更多资源获取欢迎关注我的公众号：「木子吉星」 
<img alt="公众号二维码" loading="lazy" src="https://cdn.jsdelivr.net/gh/ChunFeng-Come/My-Image/assets/%E5%85%AC%E4%BC%97%E5%8F%B7%E4%BA%8C%E7%BB%B4%E7%A0%81.jpg" class="lazyload"> 
来源：https://www.cnblogs.com/muziji/p/19646237

頁: [1]

圆梦公社's Archiver

一文读懂MOE：大模型背后的"专家分工"智慧