GPU 选型

根据模型规模、量化方式与部署约束推荐合适的 GPU 配置。

模型-GPU 匹配推荐

根据模型、量化方式、输入 token 数与并发条件，给出更适合的 GPU 选型建议，并判断是否可单卡部署。

模型量化方式输入 tokens（不含输出）最大输出长度批大小并发安全余量显卡类别

启用主流推理框架的运行时 / KV 管理优化

建议总显存456.22 GiB

单卡所需显存456.22 GiB

模型参数量685B / A37B

优先推荐

按照量化支持、所需卡数、部署定位和推荐优先级排序。

					部署说明
NVIDIA H200 141GB数据中心 · 生产级	141 GB	INT4	4 卡	需多卡	建议使用 4 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA A100 80GB数据中心 · 生产级	80 GB	INT4	7 卡	需多卡	建议使用 7 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA H100 80GB数据中心 · 生产级	80 GB	INT4	7 卡	需多卡	建议使用 7 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA A40 48GB数据中心 · 生产级	48 GB	INT4	11 卡	需多卡	建议使用 11 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA L40 48GB数据中心 · 生产级	48 GB	INT4	11 卡	需多卡	建议使用 11 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA L40S 48GB数据中心 · 生产级	48 GB	INT4	11 卡	需多卡	建议使用 11 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA RTX A6000 48GB工作站 · 部门级	48 GB	INT4	11 卡	需多卡	建议使用 11 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA L20 48GB数据中心 · 部门级	48 GB	INT4	11 卡	需多卡	建议使用 11 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA RTX 6000 Ada 48GB工作站 · 部门级	48 GB	INT4	11 卡	需多卡	建议使用 11 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA A100 40GB数据中心 · 生产级	40 GB	INT4	13 卡	需多卡	建议使用 13 卡张量并行，并结合输入 token 数与并发继续压测。
GeForce RTX 5090 32GB消费级 · 实验验证	32 GB	INT4	17 卡	需多卡	建议使用 17 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA A10 24GB数据中心 · 生产级	24 GB	INT4	24 卡	需多卡	建议使用 24 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA A30 24GB数据中心 · 生产级	24 GB	INT4	24 卡	需多卡	建议使用 24 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA L4 24GB数据中心 · 生产级	24 GB	INT4	24 卡	需多卡	建议使用 24 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA TITAN RTX 24GB消费级 · 实验验证	24 GB	INT4	24 卡	需多卡	建议使用 24 卡张量并行，并结合输入 token 数与并发继续压测。
GeForce RTX 3090 24GB消费级 · 实验验证	24 GB	INT4	24 卡	需多卡	建议使用 24 卡张量并行，并结合输入 token 数与并发继续压测。
GeForce RTX 4090 24GB消费级 · 实验验证	24 GB	INT4	24 卡	需多卡	建议使用 24 卡张量并行，并结合输入 token 数与并发继续压测。
NVIDIA T4 16GB数据中心 · 生产级	16 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
NVIDIA A2 16GB数据中心 · 生产级	16 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2060 6GB消费级 · 实验验证	6 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2060 SUPER 8GB消费级 · 实验验证	8 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2070 8GB消费级 · 实验验证	8 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2070 SUPER 8GB消费级 · 实验验证	8 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2080 8GB消费级 · 实验验证	8 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2080 SUPER 8GB消费级 · 实验验证	8 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5050 8GB消费级 · 实验验证	8 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5060 8GB消费级 · 实验验证	8 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2080 Ti 11GB消费级 · 实验验证	11 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 3060 12GB消费级 · 实验验证	12 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5070 12GB消费级 · 实验验证	12 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5060 Ti 16GB消费级 · 实验验证	16 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5070 Ti 16GB消费级 · 实验验证	16 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5080 16GB消费级 · 实验验证	16 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 4060 Ti 16GB消费级 · 实验验证	16 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 4080 16GB消费级 · 实验验证	16 GB	INT4	-	需多卡	32 卡张量并行内仍无法覆盖；建议单独验证模型切分、专家并行或 CPU/NVMe offload。

GPU 选型

模型-GPU 匹配推荐

优先推荐

NVIDIA H200 141GB

NVIDIA A100 80GB

NVIDIA H100 80GB

NVIDIA A40 48GB

NVIDIA L40 48GB

NVIDIA L40S 48GB