许燕华 發表於 2025-4-30 15:49:00

Mac上跑大模型必看:彻底搞懂GGUF与MLX的区别和联系

<p>本文已收录在Github,<strong>关注我,紧跟本系列专栏文章,咱们下篇再续!</strong></p>
<ul>
<li>🚀 魔都架构师 | 全网30W技术追随者</li>
<li>🔧 大厂分布式系统/数据中台实战专家</li>
<li>🏆 主导交易系统百万级流量调优 &amp; 车联网平台架构</li>
<li>🧠 AIGC应用开发先行者 | 区块链落地实践者</li>
<li>🌍 以技术驱动创新,我们的征途是改变世界!</li>
<li>👉 实战干货:编程严选网</li>
</ul>
<h2 id="1-定义和用途">1 定义和用途</h2>
<h3 id="11-gguf原名-ggml">1.1 GGUF(原名 GGML)</h3>
<p>现称 <strong>GGUF</strong>(以前是 <strong>GGML</strong>),最初是一个用于量化和推理大语言模型的格式。</p>
<h4 id="111-主要作用">1.1.1 主要作用</h4>
<p>提供一种<strong>高效的模型存储格式</strong>,特别是支持<strong>量化模型</strong>(如4-bit、5-bit等低精度模型)。</p>
<p>被广泛用于本地化部署小到中型的LLM(如 LLaMA 系列的轻量版本)。</p>
<h4 id="112-优点">1.1.2 优点</h4>
<ul>
<li>占用内存小,适合在PC运行</li>
<li>支持多种推理后端,如 llama.cpp 等。</li>
</ul>
<h4 id="113-典型工具项目">1.1.3 典型工具/项目</h4>
<ul>
<li>llama.cpp:一个基于 C/C++ 的项目,用 CPU 推理 LLaMA 模型,使用 GGUF 格式。</li>
</ul>
<h3 id="12-mlxapple-machine-learning-extension">1.2 MLX(Apple Machine Learning eXtension)</h3>
<p><strong>由 Apple 开发</strong>:专门为苹果设备(Mac、iPad、iPhone)设计的机器学习框架。</p>
<h4 id="主要作用">主要作用</h4>
<ul>
<li>在苹果生态中高效运行机器学习模型(包括大语言模型)。</li>
<li>支持 GPU 加速(Apple Silicon 的 NPU)。</li>
</ul>
<h4 id="特点">特点</h4>
<ul>
<li>针对苹果芯片优化(M1/M2/M3 等)。</li>
<li>可以加载 PyTorch 模型,并进行本地推理。</li>
</ul>
<h4 id="常见用法">常见用法</h4>
<ul>
<li>使用 <code>mlx</code> 库加载并运行模型(如 LLaMA、TinyLlama 等)</li>
<li>可以将 GGUF 格式的模型转换为 MLX 格式运行</li>
</ul>
<h2 id="2-关键区别">2 关键区别</h2>
<table>
<thead>
<tr>
<th>特性</th>
<th>GGUF</th>
<th>MLX</th>
</tr>
</thead>
<tbody>
<tr>
<td>类型</td>
<td>模型存储格式(主要是量化模型)</td>
<td>机器学习框架(适用于苹果平台)</td>
</tr>
<tr>
<td>是否依赖硬件</td>
<td>否,但常用于 CPU 推理</td>
<td>是,专为 Apple Silicon(M 系列芯片)优化</td>
</tr>
<tr>
<td>平台支持</td>
<td>多平台(Windows, Linux, macOS)</td>
<td>苹果平台为主</td>
</tr>
<tr>
<td>是否支持 GPU</td>
<td>不直接支持 GPU</td>
<td>支持 Apple GPU/NPU 加速</td>
</tr>
<tr>
<td>是否支持量化</td>
<td>是,GGUF 就是以量化模型著称</td>
<td>MLX 可以运行量化模型,但不是其核心特性</td>
</tr>
<tr>
<td>常见工具</td>
<td>llama.cpp</td>
<td>mlx(Apple 自研库)</td>
</tr>
<tr>
<td>是否开源</td>
<td>是</td>
<td>是</td>
</tr>
</tbody>
</table>
<h2 id="3-是否可以一起使用">3 是否可以一起使用?</h2>
<p>✅ <strong>可以!</strong></p>
<ol>
<li>先将 HuggingFace 上的标准模型(如 LLaMA)转换为 <strong>GGUF 格式</strong>(使用 llama.cpp 工具链)</li>
<li>再把 GGUF 模型进一步转换为 <strong>MLX 格式</strong>(使用 Apple 提供的转换脚本)</li>
<li>最后在 Mac 或其他苹果设备上使用 <code>mlx</code> 框架进行推理</li>
</ol>
<p>这种组合可以在苹果设备上实现高性能、低内存占用的本地大模型推理。</p>
<h2 id="4-总结">4 总结</h2>
<p><strong>GGUF 是一种高效的模型存储格式(尤其是量化模型),而 MLX 是苹果开发的机器学习框架,两者可以结合使用,在苹果设备上实现高性能本地推理。</strong></p>
<blockquote>
<p>本文由博客一文多发平台 OpenWrite 发布!</p>
</blockquote><br><br>
来源:https://www.cnblogs.com/JavaEdge/p/18855549
頁: [1]
查看完整版本: Mac上跑大模型必看:彻底搞懂GGUF与MLX的区别和联系