最具性价比
一体机解决方案
解决方案
TORA3000推理性能测评
TORA3000 基于 AMD 新一代 Instinct OAM GPU,单颗 GPU 的 HBM3e 显存容量高达 192GB,总计达 1.5TB,搭载毅伯智算自研的针对 DeepSeekMOE(混合专家模型)的软硬件一体解决方案,采用 Deepseek原生精度 FP8(杜绝量化后精度下降导致性能虚标),实现了硬件、组网、功耗的综合成本最优,并可以开箱即用。

采用毅伯智算自研的 TORA-VLLM2.0 推理框架,结合了 vLLM 与 SGLang 两种框架各自的优势,在底层 GPU 硬件上大幅优化了卡间通信以及全自动化的并行策略等,最终使其综合性能为英伟达 H20(HBM 141G型号)性能的 1.6倍,达到业界一机 8 卡部署满血版 R1 模型的同类产品的绝对高度。
典型企业应用场景下
H20-141G(单机8卡)和TORA3000(单机8卡)推理性能对比
测试环境
测试机型 毅伯智算TORA3网000(单机8卡) 英伟达H20-141G(单机8卡)
GPU型号 AMD instinct OAM GPU Nvidia H20
GPU型号 1536G(单卡192G*8) 1128G(单卡141G*8)
测试模型 DeepSeek-R1-671B(满血版)
推理框架 TORA-VLLM 2.0 SGLang
全栈式AI训推平台 包含毅伯智算自研中间件、算子库、各种用于
训推的框架等完备工具链,全面兼容CUDA生态
CUDA
模型精度 DeepSeek原生FP8格式,未进行任何量化处理,保证性能最优
开源数据集 ShareGPT Vicuna unfiltered
开源测试工具 vllm benchmark_serving.py Sglang.bench serving

平均输出吞吐量(tokens/s)

产品对比
一体机选型建议及主流方案对比
Deepseek推理一体机选择满血版还是蒸馏版?满血版与蒸馏版本质上是教师学生模型架构体系, 即前者是知识输出者,后者通过知识蒸馏过程继承前者的知识接收者。满血版可深度处理代码生成、知识图谱构建等高复杂度任务;而蒸馏版作为学生模型,受限于知识压缩与固定架构,仅适用于应用特别定义且相对简单场景。对于大中型企业,至少需配置满血版一体机作为核心引擎,以支撑业务迭代与高密度推理需求。

受 GPU 硬件性能的限制,市场上满血版推理一体机存在单机、双机甚至四机等多种部署方案,但是双机方案相对单机方案的硬件成本和功耗会都会翻倍,四机则更高,并增加额外的组网和运维成本。
毅伯智算满血版一体机TORA3000 vs 其他行业主流解决方案
满血一体机方案 精 度 服务器数量(台) 方案总显存(GB)
英伟达H20-96G FP8 2 1536
英伟达H20-141G FP8 1 1128
华为910B-64G INT8 2 1024
华为910B-64G FP16 4 2048
毅伯智算TORA3000 FP8 1 1536
*注:G表示HBM的显存单位
  • 在 DeepSeek原生FP8精度下,一体机(8卡)要流畅运行满血模型,单卡显存需 >120G(整机显存>1000GB),显存不足则必须采用多机部署。同时,部分 GPU 不支持FP8 运算,只能量化为 INT8 或 FP16 模型,但 INT8 精度下,推理精度会所有下降;FP16 会导致所需显存和节点数量翻倍。
  • 为降低部署成本、简化部署复杂性并保证性能,1台标准8卡服务器上部署原生 FP8精度的 Deepseek-R1-671B模型是最优选择,但此方案要求 GPU 支持 FP8 精度且单卡显存超过120GB,而目前市场上仅有毅伯智算的 TORA3000 和英伟达H20-141G可以满足。
产品优势
毅伯智算公众号
  • 联系我们:business@ambreai.com
  • © 2025 毅伯智算
  • 沪ICP备2025117141号