赤马红羊 發表於 2026-3-26 22:13:00

3分钟部署本地大模型,零成本实现 Token 自由!

<p>在 AI 学习和开发中,很多人会面临这些困扰:<strong>云厂商 API 计费贵、注册实名门槛高、敏感代码不敢上传、没网就不能用。</strong></p>
<p>其实,本地部署早已不再复杂。目前 GitHub 上 16.6 万 Star 的开源项目&nbsp;<em><strong>Ollama</strong></em>,已经把门槛降到了极致。</p>
<p><strong>它能自动处理环境和硬件加速,让你在 3 分钟内拥有一套完全私有、零成本的大模型服务。</strong></p>
<p><img alt="图片" loading="lazy" src="https://img2024.cnblogs.com/blog/2525618/202603/2525618-20260326215403434-1703583044.webp" class="lazyload"></p>
<p>下面以 Windows 为例(macOS/Linux 流程基本一致),带你一步步上手 Ollama。</p>
<h1 id="1下载安装">1、下载安装</h1>
<p>访问 Ollama 官网(https://ollama.com/download), 点击<code>Download for Windows</code>,会自动下载&nbsp;<code>OllamaSetup.exe</code>安装文件。</p>
<p><img alt="图片" loading="lazy" src="https://img2024.cnblogs.com/blog/2525618/202603/2525618-20260326215403932-520324346.webp" class="lazyload"></p>
<h1 id="2自定义安装路径可选">2、自定义安装路径(可选)</h1>
<p>Ollama 默认会安装到 C 盘,下载的模型也存储在 C 盘。如果你的 C 盘空间充足,可以跳过这一步,直接完成安装即可。</p>
<p>但如果你的 C 盘空间紧张,建议自定义安装路径和模型存储路径。</p>
<p>首先打开 CMD 窗口,进入到安装包所在目录,执行以下命令:</p>
<pre><code class="language-bash">OllamaSetup.exe /DIR="D:\Ollama"
</code></pre>
<p>这样会将软件安装到<code>D:\Ollama</code>路径下(你可以根据需要修改路径)。</p>
<p>在弹出的安装界面点击<code>Install</code>,等待安装完成。</p>
<p><img alt="图片" loading="lazy" src="https://img2024.cnblogs.com/blog/2525618/202603/2525618-20260326215404437-1996229437.png" class="lazyload"></p>
<p>安装完成后,会弹出 Ollama 的对话界面。先别急着开始对话,我们先调整一下模型存储路径。</p>
<p>点击界面左侧按钮,选择<code>Settings</code>,然后点击<code>Browse</code>选择模型要存放的路径即可。</p>
<p><img alt="图片" loading="lazy" src="https://img2024.cnblogs.com/blog/2525618/202603/2525618-20260326215404977-1226800999.png" class="lazyload"></p>
<p><img alt="图片" loading="lazy" src="https://img2024.cnblogs.com/blog/2525618/202603/2525618-20260326215405770-1517914653.png" class="lazyload"></p>
<h1 id="3下载模型">3、下载模型</h1>
<p>在 Ollama 中,模型名字后的数字(如&nbsp;<code>3B</code>,&nbsp;<code>7B</code>,&nbsp;<code>32B</code>)代表参数量,单位是"十亿"(Billion)。</p>
<p>参数量越大,模型越聪明,但对电脑配置要求越高,Ollama 会自动优化配置策略,有 GPU 时优先使用 GPU 加速,没有 GPU 时自动切换到CPU运行。</p>
<p>为了帮你快速选择合适的模型,这里有一个简单的参考对照表:</p>
<table>
<thead>
<tr>
<th>参数量</th>
<th>模型大小</th>
<th><strong>内存/显存要求</strong></th>
<th>推荐场景</th>
</tr>
</thead>
<tbody>
<tr>
<td><strong>2B-3B</strong></td>
<td>1.5-2.2GB</td>
<td>4GB</td>
<td>基础对话、简单问答</td>
</tr>
<tr>
<td><strong>7B-8B</strong></td>
<td>3.8-4.7GB</td>
<td>8GB</td>
<td>日常对话、代码辅助</td>
</tr>
<tr>
<td><strong>13B-14B</strong></td>
<td>7.4-8.8GB</td>
<td>16GB</td>
<td>复杂推理、长文本</td>
</tr>
<tr>
<td><strong>30B-32B</strong></td>
<td>18-20GB</td>
<td>32GB</td>
<td>专业领域、深度分析</td>
</tr>
<tr>
<td><strong>70B</strong></td>
<td>39-40GB</td>
<td>64GB</td>
<td>高级推理、接近GPT-3.5</td>
</tr>
<tr>
<td><strong>120B+</strong></td>
<td>70GB+</td>
<td>80GB+</td>
<td>接近GPT-4级别</td>
</tr>
</tbody>
</table>
<p>Ollama 客户端界面提供了一些热门模型,你可以直接和它对话,系统会自动下载所需的模型。</p>
<p><img alt="图片" loading="lazy" src="https://img2024.cnblogs.com/blog/2525618/202603/2525618-20260326215406321-951708481.png" class="lazyload"></p>
<p>不过客户端上展示的模型不全,如果想要下载更多模型,可以去官网&nbsp;https://ollama.com/search&nbsp;查找,支持按照流行度/发布时间排序,还可以通过标签筛选是否支持深度思考,是否支持 Function Calling 功能等能力。</p>
<p><img alt="图片" loading="lazy" src="https://img2024.cnblogs.com/blog/2525618/202603/2525618-20260326215406847-1930566599.png" class="lazyload"></p>
<p>如果找到了想要的模型,可以通过 CMD 命令行下载,示例如下:</p>
<pre><code class="language-bash"># 下载通义千问
ollama pull qwen3.5:4b

# 查看已下载的模型
ollama list

# 输出:
# NAME &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;ID &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;SIZE &nbsp; &nbsp; &nbsp;MODIFIED
# gemma3:4b &nbsp; &nbsp; a2af6cc3eb7f &nbsp; &nbsp;3.3 GB &nbsp; &nbsp;37 seconds ago
# qwen3.5:4b &nbsp; &nbsp;2a654d98e6fb &nbsp; &nbsp;3.4 GB &nbsp; &nbsp;55 seconds ago
</code></pre>
<h1 id="4代码调用模型">4、代码调用模型</h1>
<p>Ollama 的一大优势是兼容 OpenAI API 格式,这意味着你可以直接使用 OpenAI SDK 调用本地模型,只需改一行 URL,就能从云端无缝切换到本地。</p>
<pre><code class="language-bash">from&nbsp;openai&nbsp;import&nbsp;OpenAI

client = OpenAI(
&nbsp; &nbsp; base_url='http://localhost:11434/v1/', &nbsp;# 指向本地 Ollama 默认端口 11434
&nbsp; &nbsp; api_key='ollama-local', &nbsp;&nbsp;# 可随意填写,Ollama 不做强制校验
)

response = client.chat.completions.create(
&nbsp; &nbsp; model="gemma3:4b",&nbsp;# 确保调用的model名称已下载
&nbsp; &nbsp; messages=[
&nbsp; &nbsp; &nbsp; &nbsp; {"role":&nbsp;"user",&nbsp;"content":&nbsp;"你是谁?"}
&nbsp; &nbsp; ]
)

print(response.choices.message.content)
</code></pre>
<p>就是这么简单——你不需要学习新的 API,所有熟悉的OpenAI调用方式都能直接复用。</p>
<h1 id="5总结">5、总结</h1>
<p>Ollama 为我们提供了一条<strong>零成本、无限制、数据私有</strong>的本地大模型部署路径。无论是日常学习、代码辅助,还是处理敏感数据,它都能成为你可靠的工作伙伴。</p>
<p>从今天开始,告别 Token 焦虑,拥抱 AI 自由吧!</p>
<p><img alt="图片" loading="lazy" src="https://img2024.cnblogs.com/blog/2525618/202603/2525618-20260326215407365-869612311.gif" class="lazyload"></p>
<ul>
<li>
<p>AI 工程化实战:不学算法也能用好的 LLM 指南</p>
</li>
<li>
<p>AI 工程化实战:拒绝“开盲盒”,像写代码一样搞定提示词工程!</p>
</li>
<li>
<p>AI 工程化实战:拒绝“胡说八道”,用 RAG 给大模型外挂私有大脑!</p>
</li>
<li>
<p>AI 工程化实战:5分钟带你快速掌握 Function Calling!</p>
</li>
<li>
<p>AI 工程化实战:从零手搓代码,这一次彻底搞懂MCP!</p>
</li>
</ul><br><br>
来源:https://www.cnblogs.com/yifeng-coding/p/19778389
頁: [1]
查看完整版本: 3分钟部署本地大模型,零成本实现 Token 自由!