Skip to content
首页/在线工具/显存评估

显存评估

快速估算模型推理场景下的显存需求,并支持公式说明、部署评估矩阵与高级参数分析。

输入参数

修改输入参数后,估算结果会自动联动更新。

部署评估矩阵

用于评估不同输入 token 数与并发条件下的显存消耗情况。

说明:开始评估后,会按下方列表批量覆盖输入参数中的“输入 tokens”和“并发数”。

估算结果

LLM-only
建议总显存
13.8 GiB
单实例每卡建议显存
13.8 GiB
有效 KV tokens
34816
模型权重4.10 GiB
KV Cache4.78 GiB
激活开销(估算)1.20 GiB
运行缓冲(估算)1.44 GiB
常见 GPU 档位单卡显存是否可覆盖当前单实例
RTX 4090 24G24 GiB可以覆盖
RTX 5090 32G32 GiB可以覆盖
L40S / RTX 6000 Ada 48G48 GiB可以覆盖
H100 / H800 80G80 GiB可以覆盖
H200 141G141 GiB可以覆盖

使用说明

1

选择模型或手工输入结构

根据模型总参数、MoE 激活参数、层数与 KV 结构选择合适配置。

2

设置运行参数

选择量化方式、输入/输出 tokens、Batch、并发、安全余量与张量并行。

3

查看评估结果

获取权重、KV Cache、激活开销、运行缓冲与每卡显存预估。