显存评估

快速估算模型推理场景下的显存需求，并支持公式说明、部署评估矩阵与高级参数分析。

输入参数

修改输入参数后，估算结果会自动联动更新。

用于评估不同输入 token 数与并发条件下的显存消耗情况。

说明：开始评估后，会按下方列表批量覆盖输入参数中的“输入 tokens”和“并发数”。

LLM-only

根据模型总参数、MoE 激活参数、层数与 KV 结构选择合适配置。

选择量化方式、输入/输出 tokens、Batch、并发、安全余量与张量并行。

获取权重、KV Cache、激活开销、运行缓冲与每卡显存预估。