Ollama平替!LM Studio本地大模型调用实战
<p>本文已收录在Github,<strong>关注我,紧跟本系列专栏文章,咱们下篇再续!</strong></p><ul>
<li>🚀 魔都架构师 | 全网30W技术追随者</li>
<li>🔧 大厂分布式系统/数据中台实战专家</li>
<li>🏆 主导交易系统百万级流量调优 & 车联网平台架构</li>
<li>🧠 AIGC应用开发先行者 | 区块链落地实践者</li>
<li>🌍 以技术驱动创新,我们的征途是改变世界!</li>
<li>👉 实战干货:编程严选网</li>
</ul>
<p>Ollama 平替!LM Studio本地大模型调用实战指南</p>
<h2 id="0-前言">0 前言</h2>
<p>可像 Ollama 通过暴露本地端口,实现本地客户端调用。</p>
<h2 id="1-选择模型">1 选择模型</h2>
<p>在 LM Studio 的 “开发者” 选项卡中选择模型:</p>
<p><img alt="" loading="lazy" src="https://img2024.cnblogs.com/other/1097393/202504/1097393-20250426213351715-1686983395.png" class="lazyload"></p>
<h2 id="2-端口暴露">2 端口暴露</h2>
<p>设置暴露的端口(默认1234):</p>
<p><img alt="" loading="lazy" src="https://img2024.cnblogs.com/other/1097393/202504/1097393-20250426213352563-1954689726.png" class="lazyload"></p>
<p>启用 CORS 后,可对接网页应用或其他客户端工具。</p>
<h2 id="3-启动服务">3 启动服务</h2>
<p>点击状态选项卡:</p>
<p><img alt="" loading="lazy" src="https://img2024.cnblogs.com/other/1097393/202504/1097393-20250426213353186-1534426797.png" class="lazyload"></p>
<p>控制台会显示运行日志和访问地址:</p>
<p><img alt="" loading="lazy" src="https://img2024.cnblogs.com/other/1097393/202504/1097393-20250426213354447-1810970273.png" class="lazyload"></p>
<h2 id="4-快速上手">4 快速上手</h2>
<h3 id="41-快速ping">4.1 快速ping</h3>
<p>列出已加载并就绪的模型:</p>
<pre><code class="language-bash">curl http://127.0.0.1:1234/v1/models/
</code></pre>
<p><img alt="" loading="lazy" src="https://img2024.cnblogs.com/other/1097393/202504/1097393-20250426213355351-2101137921.png" class="lazyload"></p>
<p>这也是验证服务器是否可访问的一种有效方法!</p>
<h3 id="42-聊天">4.2 聊天</h3>
<p>这是一个类似调用OpenAI的操作,通过<code>curl</code>工具访问<code>/v1/chat/completion</code>端点:</p>
<ul>
<li>在Mac或Linux系统,可用任意终端运行</li>
<li>Windows系统用Git Bash</li>
</ul>
<pre><code class="language-bash">curl http://127.0.0.1:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama-4-maverick-17b-128e-instruct",
"messages": [
{ "role": "system", "content": "Always answer in rhymes." },
{ "role": "user", "content": "Introduce yourself." }
],
"temperature": 0.7,
"max_tokens": -1,
"stream": true
}'
</code></pre>
<p>该调用是“无状态的”,即服务器不会保留对话历史记录。调用方有责任在每次调用时提供完整的对话历史记录。</p>
<h4 id="流式传输-vs-累积完整响应">流式传输 V.S 累积完整响应</h4>
<p>注意<code>"stream": true</code>(流式传输:开启)参数:</p>
<ul>
<li><code>true</code>(开启)时,LM Studio会在预测出标记(token)的同时将其逐一流式返回</li>
<li>如将此参数设置为<code>false</code>(关闭),在调用返回之前,完整的预测结果会被先累积起来。对于较长的内容生成或者运行速度较慢的模型,这可能需要花费一些时间!</li>
</ul>
<blockquote>
<p>本文由博客一文多发平台 OpenWrite 发布!</p>
</blockquote><br><br>
来源:https://www.cnblogs.com/JavaEdge/p/18848424
頁:
[1]