Skip to content
首页/在线工具/GPU 选型

GPU 选型

根据模型规模、量化方式与部署约束推荐合适的 GPU 配置。

模型-GPU 匹配推荐

根据模型、量化方式、输入 token 数与并发条件,给出更适合的 GPU 选型建议,并判断是否可单卡部署。

建议总显存456.22 GiB
单卡所需显存456.22 GiB
模型参数量685B / A37B

优先推荐

按照量化支持、所需卡数、部署定位和推荐优先级排序。

NVIDIA H200 141GB

数据中心
生产级 · 141 GB
4 卡

预计至少需要 4 张同规格显卡进行张量并行部署。

NVIDIA A100 80GB

数据中心
生产级 · 80 GB
7 卡

预计至少需要 7 张同规格显卡进行张量并行部署。

NVIDIA H100 80GB

数据中心
生产级 · 80 GB
7 卡

预计至少需要 7 张同规格显卡进行张量并行部署。

NVIDIA A40 48GB

数据中心
生产级 · 48 GB
11 卡

预计至少需要 11 张同规格显卡进行张量并行部署。

NVIDIA L40 48GB

数据中心
生产级 · 48 GB
11 卡

预计至少需要 11 张同规格显卡进行张量并行部署。

NVIDIA L40S 48GB

数据中心
生产级 · 48 GB
11 卡

预计至少需要 11 张同规格显卡进行张量并行部署。

部署说明
NVIDIA H200 141GB数据中心 · 生产级
141 GBINT44 卡需多卡
建议使用 4 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA A100 80GB数据中心 · 生产级
80 GBINT47 卡需多卡
建议使用 7 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA H100 80GB数据中心 · 生产级
80 GBINT47 卡需多卡
建议使用 7 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA A40 48GB数据中心 · 生产级
48 GBINT411 卡需多卡
建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA L40 48GB数据中心 · 生产级
48 GBINT411 卡需多卡
建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA L40S 48GB数据中心 · 生产级
48 GBINT411 卡需多卡
建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA RTX A6000 48GB工作站 · 部门级
48 GBINT411 卡需多卡
建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA L20 48GB数据中心 · 部门级
48 GBINT411 卡需多卡
建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA RTX 6000 Ada 48GB工作站 · 部门级
48 GBINT411 卡需多卡
建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA A100 40GB数据中心 · 生产级
40 GBINT413 卡需多卡
建议使用 13 卡张量并行,并结合输入 token 数与并发继续压测。
GeForce RTX 5090 32GB消费级 · 实验验证
32 GBINT417 卡需多卡
建议使用 17 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA A10 24GB数据中心 · 生产级
24 GBINT424 卡需多卡
建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA A30 24GB数据中心 · 生产级
24 GBINT424 卡需多卡
建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA L4 24GB数据中心 · 生产级
24 GBINT424 卡需多卡
建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA TITAN RTX 24GB消费级 · 实验验证
24 GBINT424 卡需多卡
建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。
GeForce RTX 3090 24GB消费级 · 实验验证
24 GBINT424 卡需多卡
建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。
GeForce RTX 4090 24GB消费级 · 实验验证
24 GBINT424 卡需多卡
建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。
NVIDIA T4 16GB数据中心 · 生产级
16 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
NVIDIA A2 16GB数据中心 · 生产级
16 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2060 6GB消费级 · 实验验证
6 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2060 SUPER 8GB消费级 · 实验验证
8 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2070 8GB消费级 · 实验验证
8 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2070 SUPER 8GB消费级 · 实验验证
8 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2080 8GB消费级 · 实验验证
8 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2080 SUPER 8GB消费级 · 实验验证
8 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5050 8GB消费级 · 实验验证
8 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5060 8GB消费级 · 实验验证
8 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 2080 Ti 11GB消费级 · 实验验证
11 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 3060 12GB消费级 · 实验验证
12 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5070 12GB消费级 · 实验验证
12 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5060 Ti 16GB消费级 · 实验验证
16 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5070 Ti 16GB消费级 · 实验验证
16 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 5080 16GB消费级 · 实验验证
16 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 4060 Ti 16GB消费级 · 实验验证
16 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。
GeForce RTX 4080 16GB消费级 · 实验验证
16 GBINT4-需多卡
32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。