NVIDIA H200 141GB
数据中心4 卡
预计至少需要 4 张同规格显卡进行张量并行部署。
根据模型规模、量化方式与部署约束推荐合适的 GPU 配置。
根据模型、量化方式、输入 token 数与并发条件,给出更适合的 GPU 选型建议,并判断是否可单卡部署。
按照量化支持、所需卡数、部署定位和推荐优先级排序。
预计至少需要 4 张同规格显卡进行张量并行部署。
预计至少需要 7 张同规格显卡进行张量并行部署。
预计至少需要 7 张同规格显卡进行张量并行部署。
预计至少需要 11 张同规格显卡进行张量并行部署。
预计至少需要 11 张同规格显卡进行张量并行部署。
预计至少需要 11 张同规格显卡进行张量并行部署。
| 部署说明 | |||||
|---|---|---|---|---|---|
NVIDIA H200 141GB数据中心 · 生产级 | 141 GB | INT4 | 4 卡 | 需多卡 | 建议使用 4 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA A100 80GB数据中心 · 生产级 | 80 GB | INT4 | 7 卡 | 需多卡 | 建议使用 7 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA H100 80GB数据中心 · 生产级 | 80 GB | INT4 | 7 卡 | 需多卡 | 建议使用 7 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA A40 48GB数据中心 · 生产级 | 48 GB | INT4 | 11 卡 | 需多卡 | 建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA L40 48GB数据中心 · 生产级 | 48 GB | INT4 | 11 卡 | 需多卡 | 建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA L40S 48GB数据中心 · 生产级 | 48 GB | INT4 | 11 卡 | 需多卡 | 建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA RTX A6000 48GB工作站 · 部门级 | 48 GB | INT4 | 11 卡 | 需多卡 | 建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA L20 48GB数据中心 · 部门级 | 48 GB | INT4 | 11 卡 | 需多卡 | 建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA RTX 6000 Ada 48GB工作站 · 部门级 | 48 GB | INT4 | 11 卡 | 需多卡 | 建议使用 11 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA A100 40GB数据中心 · 生产级 | 40 GB | INT4 | 13 卡 | 需多卡 | 建议使用 13 卡张量并行,并结合输入 token 数与并发继续压测。 |
GeForce RTX 5090 32GB消费级 · 实验验证 | 32 GB | INT4 | 17 卡 | 需多卡 | 建议使用 17 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA A10 24GB数据中心 · 生产级 | 24 GB | INT4 | 24 卡 | 需多卡 | 建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA A30 24GB数据中心 · 生产级 | 24 GB | INT4 | 24 卡 | 需多卡 | 建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA L4 24GB数据中心 · 生产级 | 24 GB | INT4 | 24 卡 | 需多卡 | 建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA TITAN RTX 24GB消费级 · 实验验证 | 24 GB | INT4 | 24 卡 | 需多卡 | 建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。 |
GeForce RTX 3090 24GB消费级 · 实验验证 | 24 GB | INT4 | 24 卡 | 需多卡 | 建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。 |
GeForce RTX 4090 24GB消费级 · 实验验证 | 24 GB | INT4 | 24 卡 | 需多卡 | 建议使用 24 卡张量并行,并结合输入 token 数与并发继续压测。 |
NVIDIA T4 16GB数据中心 · 生产级 | 16 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
NVIDIA A2 16GB数据中心 · 生产级 | 16 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 2060 6GB消费级 · 实验验证 | 6 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 2060 SUPER 8GB消费级 · 实验验证 | 8 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 2070 8GB消费级 · 实验验证 | 8 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 2070 SUPER 8GB消费级 · 实验验证 | 8 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 2080 8GB消费级 · 实验验证 | 8 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 2080 SUPER 8GB消费级 · 实验验证 | 8 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 5050 8GB消费级 · 实验验证 | 8 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 5060 8GB消费级 · 实验验证 | 8 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 2080 Ti 11GB消费级 · 实验验证 | 11 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 3060 12GB消费级 · 实验验证 | 12 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 5070 12GB消费级 · 实验验证 | 12 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 5060 Ti 16GB消费级 · 实验验证 | 16 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 5070 Ti 16GB消费级 · 实验验证 | 16 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 5080 16GB消费级 · 实验验证 | 16 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 4060 Ti 16GB消费级 · 实验验证 | 16 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |
GeForce RTX 4080 16GB消费级 · 实验验证 | 16 GB | INT4 | - | 需多卡 | 32 卡张量并行内仍无法覆盖;建议单独验证模型切分、专家并行或 CPU/NVMe offload。 |