解决方案

最快的大上下文LLM推理

Tenstorrent Galaxy针对高端、延迟敏感的AI工作负载进行了优化。运行超级集群,支持代理工作流、实时系统和长上下文推理等高利润AI用例。利用相同的通用AI Tenstorrent系统进行解码和预填充。

部署LLM推理

首个Token时间减半,输出速度4倍

首个Token时间减半

在Blitz模式下,针对速度进行优化,Tenstorrent Galaxy超级集群在服务器间并行化预填充,高效地重叠数据放置和数据流,实现高利用率计算。

首个Token时间(秒), DeepSeek-R1-0528, 100k上下文

7.5秒
4.0秒

GPU

Tenstorrent

来源: Artificial Analysis; Nvidia前5名平均,包括Eigen AI、DeepInfra、Fireworks、Novita AI、Nebius等前5名提供商

4倍输出速度

Tenstorrent Galaxy超级集群上的解码智能地利用片上SRAM和DRAM在服务器间进行流水线处理,为代理工作负载提供最大上下文的大模型扩展。

输出速度(token/秒), DeepSeek-R1-0528, 100k上下文

86 token/秒
350 token/秒

GPU

Tenstorrent

来源: Artificial Analysis; Nvidia前5名平均,包括Eigen AI、DeepInfra、Fireworks、Novita AI、Nebius等前5名提供商

优势

快速

快速

通过大量芯片的有效并行化,我们能够提供最快的大上下文LLM。

网络化AI

网络化AI

利用相同的硬件进行预填充和解码。网络化AI架构将计算、SRAM和DRAM内存以及网络统一为通用AI服务。

可扩展

可扩展

为超级集群配置而设计。GPU架构受限于机箱,而Tenstorrent Galaxy突破了这一限制。

开放

开放

无需专有互联、交换机或HBM。完全开源的端到端软件栈。为您的AI解决方案部署最先进的模型。

技术

用于生产LLM推理的Blackhole架构

Tenstorrent Galaxy超级集群

Tenstorrent Galaxy超级集群

运行任何东西 – 快速、经济、简单。高密度、可扩展的计算。添加系统,提升速度。

探索Galaxy超级集群
Tensix核心

Tensix核心

专为并行、连续工作负载而设计。每美元SRAM容量达91倍,每美元SRAM带宽达12倍,Tensix在关键时刻表现出色。

探索
模型支持

模型支持

HuggingFace上90%的模型可以直接运行,覆盖范围每天都在扩大,包括LLM、图像生成、语音、视觉、嵌入、编码器等。

探索

4 x Tenstorrent Galaxy™ Blackhole超级集群

Tenstorrent Galaxy™ Blackhole可以部署为超级集群,扩展为多服务器拓扑,可扩展到任意规模。4台Tenstorrent Galaxy™超级集群在大上下文LLM推理的性能和成本方面引领行业。

立即部署
4 x Tenstorrent Galaxy™ Blackhole超级集群