部署容量规划
按模型、GPU、输入 tokens、输出 tokens 与并发矩阵评估部署显存边界。
输入 tokens / 并发容量规划
围绕指定模型、量化方式与 GPU,评估不同输入 token 数和并发组合下的部署可行性。
GPU 单卡显存48 GB
可行组合数量0
最大可行组合暂无
| 并发 \ 输入 tokens | 4096 | 8192 | 16384 | 32768 | 65536 | 131072 |
|---|---|---|---|---|---|---|
| 1 | 超出 450.25 GiB / 卡 超出 402.3 GiB | 超出 451.04 GiB / 卡 超出 403 GiB | 超出 452.58 GiB / 卡 超出 404.6 GiB | 超出 456.22 GiB / 卡 超出 408.2 GiB | 超出 461.34 GiB / 卡 超出 413.3 GiB | 超出 469.32 GiB / 卡 超出 421.3 GiB |
| 2 | 超出 451.15 GiB / 卡 超出 403.1 GiB | 超出 452.34 GiB / 卡 超出 404.3 GiB | 超出 454.63 GiB / 卡 超出 406.6 GiB | 超出 459.7 GiB / 卡 超出 411.7 GiB | 超出 467.67 GiB / 卡 超出 419.7 GiB | 超出 481.31 GiB / 卡 超出 433.3 GiB |
| 4 | 超出 452.95 GiB / 卡 超出 404.9 GiB | 超出 454.95 GiB / 卡 超出 406.9 GiB | 超出 458.74 GiB / 卡 超出 410.7 GiB | 超出 466.68 GiB / 卡 超出 418.7 GiB | 超出 480.33 GiB / 卡 超出 432.3 GiB | 超出 505.28 GiB / 卡 超出 457.3 GiB |
| 8 | 超出 456.55 GiB / 卡 超出 408.6 GiB | 超出 460.15 GiB / 卡 超出 412.1 GiB | 超出 466.95 GiB / 卡 超出 418.9 GiB | 超出 480.63 GiB / 卡 超出 432.6 GiB | 超出 505.64 GiB / 卡 超出 457.6 GiB | 超出 553.21 GiB / 卡 超出 505.2 GiB |
| 16 | 超出 463.74 GiB / 卡 超出 415.7 GiB | 超出 470.57 GiB / 卡 超出 422.6 GiB | 超出 483.38 GiB / 卡 超出 435.4 GiB | 超出 508.53 GiB / 卡 超出 460.5 GiB | 超出 556.27 GiB / 卡 超出 508.3 GiB | 超出 649.09 GiB / 卡 超出 601.1 GiB |