使用vLLM实测3090和4090的大模型推理性能

告别长江 發表於 2025-11-6 19:23:00

使用vLLM实测3090和4090的大模型推理性能

之前使用<code>Ollama</code>基于顺序调用的场景比较了3090和4090的显卡性能： 
Ollama大模型推理场景下3090和4090性能实测
同时，又基于3090显卡比较了<code>Ollama</code>和<code>vLLM</code>在顺序调用和多并发推理场景下的性能差异： 
Ollama和vLLM大模型推理性能对比实测
这里再使用<code>vLLM</code>测试下大模型并发推理场景下3090和4090两张显卡的性能表现，看下4090是否在高并发场景下具备更高的扩展性。
在GPU算力租用平台晨涧云分别租用3090显卡和4090显卡的vLLM云容器进行测试。
<h3 id="大模型选择">大模型选择</h3>
选择 <code>Qwen3</code>的模型进行测试，考虑到都是24GB的显存，选择的是<code>FP16</code>精度的<code>qwen3:8b</code>模型进行测试。
借助<code>DeepSeek</code> 生成测试脚本，调整脚本控制变量：
<ul>
<li>
使用复杂度近似的N个prompts；
</li>
<li>
<code>MAX_TOKENS</code>配置256，让每次请求需要一定的生成时长便于采样显卡的使用指标，减少波动；
</li>
<li>
选择<code></code> 4种<code>BATCH_SIZES</code>测试不同并发度下的性能表现；
</li>
<li>
每轮测试执行3次推理，指标取平均；
</li>
<li>
同时需要模型预热，消除第一次推理响应延时过大的问题。
</li>
</ul>
然后执行推理性能测试脚本，查看输出结果。
<h3 id="3090推理性能">3090推理性能</h3>
<img alt="3090-vLLM大模型推理测试结果" width="774" height="761" loading="lazy" src="https://img2024.cnblogs.com/blog/3710921/202511/3710921-20251105113230943-157061407.png" class="lazyload">
<h3 id="4090推理性能">4090推理性能</h3>
<img alt="4090-vLLM大模型推理测试结果" width="772" height="761" loading="lazy" src="https://img2024.cnblogs.com/blog/3710921/202511/3710921-20251106191924647-1583941025.png" class="lazyload">
<h3 id="测试结果解释">测试结果解释</h3>
<ul>
<li>
Batch Size：一次推理调用的并发prompt数量
</li>
<li>
平均耗时 (s)：多次推理平均响应时长
</li>
<li>
平均吞吐量 (tokens/s)：多次推理平均Token生成速度
</li>
<li>
平均显存 (MB)：多次推理平均显存使用量
</li>
<li>
平均GPU使用率(%)：多次推理平均GPU使用率
</li>
</ul>
3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近，主要看<code>平均耗时</code>及<code>平均吞吐量</code>两个指标：
<table>
<thead>
<tr>
<th>Batch Size</th>
<th></th>
<th>RTX 3090</th>
<th>RTX 4090</th>
<th>对比</th>
</tr>
</thead>
<tbody>
<tr>
<td>1</td>
<td>平均耗时(s)</td>
<td>5.44</td>
<td>4.61</td>
<td></td>
</tr>
<tr>
<td>1</td>
<td>平均吞吐量(tokens/s)</td>
<td>47.10</td>
<td>55.60</td>
<td>118.0%</td>
</tr>
<tr>
<td>4</td>
<td>平均耗时(s)</td>
<td>5.61</td>
<td>4.87</td>
<td></td>
</tr>
<tr>
<td>4</td>
<td>平均吞吐量(tokens/s)</td>
<td>182.70</td>
<td>210.40</td>
<td>115.2%</td>
</tr>
<tr>
<td>8</td>
<td>平均耗时(s)</td>
<td>5.82</td>
<td>4.94</td>
<td></td>
</tr>
<tr>
<td>8</td>
<td>平均吞吐量(tokens/s)</td>
<td>351.90</td>
<td>414.50</td>
<td>117.8%</td>
</tr>
<tr>
<td>16</td>
<td>平均耗时(s)</td>
<td>6.42</td>
<td>5.13</td>
<td></td>
</tr>
<tr>
<td>16</td>
<td>平均吞吐量(tokens/s)</td>
<td>638.40</td>
<td>798.50</td>
<td>125.1%</td>
</tr>
</tbody>
</table>
1～8并发度场景下，3090和4090的推理性能均保持稳定，4090比3090高17%左右；在16并发度下3090开始遇到性能瓶颈，而4090显然较3090有更充足的剩余性能空间。 
来源：https://www.cnblogs.com/ai-hpc-trivia/p/19197561

頁: [1]

圆梦公社's Archiver

使用vLLM实测3090和4090的大模型推理性能