显存评估
快速估算模型推理场景下的显存需求,并支持公式说明、部署评估矩阵与高级参数分析。
输入参数
修改输入参数后,估算结果会自动联动更新。
部署评估矩阵
用于评估不同输入 token 数与并发条件下的显存消耗情况。
说明:开始评估后,会按下方列表批量覆盖输入参数中的“输入 tokens”和“并发数”。
估算结果
LLM-only
建议总显存
13.8 GiB
单实例每卡建议显存
13.8 GiB
有效 KV tokens
34816
模型权重4.10 GiB
KV Cache4.78 GiB
激活开销(估算)1.20 GiB
运行缓冲(估算)1.44 GiB
| 常见 GPU 档位 | 单卡显存 | 是否可覆盖当前单实例 |
|---|---|---|
| RTX 4090 24G | 24 GiB | 可以覆盖 |
| RTX 5090 32G | 32 GiB | 可以覆盖 |
| L40S / RTX 6000 Ada 48G | 48 GiB | 可以覆盖 |
| H100 / H800 80G | 80 GiB | 可以覆盖 |
| H200 141G | 141 GiB | 可以覆盖 |
使用说明
1
选择模型或手工输入结构
根据模型总参数、MoE 激活参数、层数与 KV 结构选择合适配置。
2
设置运行参数
选择量化方式、输入/输出 tokens、Batch、并发、安全余量与张量并行。
3
查看评估结果
获取权重、KV Cache、激活开销、运行缓冲与每卡显存预估。