告别长江 發表於 2025-11-6 19:23:00

使用vLLM实测3090和4090的大模型推理性能

<p>之前使用<code>Ollama</code>基于顺序调用的场景比较了3090和4090的显卡性能:<br>
Ollama大模型推理场景下3090和4090性能实测</p>
<p>同时,又基于3090显卡比较了<code>Ollama</code>和<code>vLLM</code>在顺序调用和多并发推理场景下的性能差异:<br>
Ollama和vLLM大模型推理性能对比实测</p>
<p>这里再使用<code>vLLM</code>测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。</p>
<p>在GPU算力租用平台 晨涧云 分别租用3090显卡和4090显卡的vLLM云容器进行测试。</p>
<h3 id="大模型选择">大模型选择</h3>
<p>选择 <code>Qwen3</code>的模型进行测试,考虑到都是24GB的显存,选择的是<code>FP16</code>精度的<code>qwen3:8b</code>模型进行测试。</p>
<p>借助<code>DeepSeek</code> 生成测试脚本,调整脚本控制变量:</p>
<ul>
<li>
<p>使用复杂度近似的N个prompts;</p>
</li>
<li>
<p><code>MAX_TOKENS</code>配置256,让每次请求需要一定的生成时长便于采样显卡的使用指标,减少波动;</p>
</li>
<li>
<p>选择<code></code>&nbsp;4种<code>BATCH_SIZES</code>测试不同并发度下的性能表现;</p>
</li>
<li>
<p>每轮测试执行3次推理,指标取平均;</p>
</li>
<li>
<p>同时需要模型预热,消除第一次推理响应延时过大的问题。</p>
</li>
</ul>
<p>然后执行推理性能测试脚本,查看输出结果。</p>
<h3 id="3090推理性能">3090推理性能</h3>
<p><img alt="3090-vLLM大模型推理测试结果" width="774" height="761" loading="lazy" src="https://img2024.cnblogs.com/blog/3710921/202511/3710921-20251105113230943-157061407.png" class="lazyload"></p>
<h3 id="4090推理性能">4090推理性能</h3>
<p><img alt="4090-vLLM大模型推理测试结果" width="772" height="761" loading="lazy" src="https://img2024.cnblogs.com/blog/3710921/202511/3710921-20251106191924647-1583941025.png" class="lazyload"></p>
<h3 id="测试结果解释">测试结果解释</h3>
<ul>
<li>
<p><strong>Batch Size</strong>:一次推理调用的并发prompt数量</p>
</li>
<li>
<p><strong>平均耗时 (s)</strong>:多次推理平均响应时长</p>
</li>
<li>
<p><strong>平均吞吐量 (tokens/s)</strong>:多次推理平均Token生成速度</p>
</li>
<li>
<p><strong>平均显存 (MB)</strong>:多次推理平均显存使用量</p>
</li>
<li>
<p><strong>平均GPU使用率(%)</strong>:多次推理平均GPU使用率</p>
</li>
</ul>
<p>3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,主要看<code>平均耗时</code>及<code>平均吞吐量</code>两个指标:</p>
<table>
<thead>
<tr>
<th>Batch Size</th>
<th></th>
<th>RTX 3090</th>
<th>RTX 4090</th>
<th>对比</th>
</tr>
</thead>
<tbody>
<tr>
<td>1</td>
<td><strong>平均耗时(s)</strong></td>
<td>5.44</td>
<td>4.61</td>
<td></td>
</tr>
<tr>
<td>1</td>
<td><strong>平均吞吐量(tokens/s)</strong></td>
<td>47.10</td>
<td>55.60</td>
<td><strong>118.0%</strong></td>
</tr>
<tr>
<td>4</td>
<td><strong>平均耗时(s)</strong></td>
<td>5.61</td>
<td>4.87</td>
<td></td>
</tr>
<tr>
<td>4</td>
<td><strong>平均吞吐量(tokens/s)</strong></td>
<td>182.70</td>
<td>210.40</td>
<td><strong>115.2%</strong></td>
</tr>
<tr>
<td>8</td>
<td><strong>平均耗时(s)</strong></td>
<td>5.82</td>
<td>4.94</td>
<td></td>
</tr>
<tr>
<td>8</td>
<td><strong>平均吞吐量(tokens/s)</strong></td>
<td>351.90</td>
<td>414.50</td>
<td><strong>117.8%</strong></td>
</tr>
<tr>
<td>16</td>
<td><strong>平均耗时(s)</strong></td>
<td>6.42</td>
<td>5.13</td>
<td></td>
</tr>
<tr>
<td>16</td>
<td><strong>平均吞吐量(tokens/s)</strong></td>
<td>638.40</td>
<td>798.50</td>
<td><strong>125.1%</strong></td>
</tr>
</tbody>
</table>
<p><strong>1~8并发度场景下,3090和4090的推理性能均保持稳定,4090比3090高17%左右;在16并发度下3090开始遇到性能瓶颈,而4090显然较3090有更充足的剩余性能空间。</strong></p><br><br>
来源:https://www.cnblogs.com/ai-hpc-trivia/p/19197561
頁: [1]
查看完整版本: 使用vLLM实测3090和4090的大模型推理性能