gpu 算力卡 颠覆性设计Cerebras WSE-3 第三代晶圆级引擎,全部用sram作为显存,介绍
2026/6/6 11:08:57 网站建设 项目流程

gpu 算力卡 颠覆性设计Cerebras WSE-3 第三代晶圆级引擎,全部用sram作为显存,介绍

怪兽级算力卡

Cerebras WSE-3是 Cerebras Systems 推出的第三代晶圆级引擎(Wafer-Scale Engine),也是目前全球面积最大、晶体管数量最多的商用 AI 处理器。它采用与传统 GPU 完全不同的架构路线——将整个 300mm 硅晶圆作为一颗芯片使用,而非切割成数百颗独立小芯片。




## 电源

展会视频部分 https://www.bilibili.com/video/BV1yvSFBAE3N/?spm_id_from=333.337.search-card.all.click&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef

核心规格

参数WSE-3对比参考(NVIDIA H100)
制程TSMC 5nmTSMC 4nm
芯片面积46,225 mm²(整片晶圆)814 mm²
晶体管4 万亿800 亿
AI 核心数90 万个约 1.8 万个
片上内存44 GB SRAM80 GB HBM3
内存带宽21 PB/s3.35 TB/s
峰值算力 (FP16)125 PetaFLOPS~989 TFLOPS
系统功耗 (CS-3)~23 kW~700W(单卡)

架构创新

1. 晶圆级集成(Wafer-Scale Integration)
传统芯片制造将晶圆切割成独立裸片(Die)再封装,而 WSE-3 保留整片晶圆作为单一处理器。这消除了芯片间的通信延迟和带宽瓶颈,数据在 90 万核心之间通过片上 2D 网格互连传输,延迟极低。

2. 缺陷容忍设计
晶圆级芯片面临的最大挑战是制造缺陷。Cerebras 通过以下方式解决:

  • 单个核心仅 0.05 mm²(约为传统核心的 1/100),缺陷影响面积极小
  • 设计 97 万物理核心,激活 90 万个,冗余核心自动替换故障单元
  • 片上路由网络可绕过缺陷区域,实现"故障即隔离"架构
    这使得 WSE-3 的缺陷容忍度比传统多核处理器高 100 倍。

3. 近存计算(Compute Near Memory)
44 GB SRAM 直接分布在 90 万核心旁边,提供 21 PB/s 的聚合带宽。对于参数规模在 70B 以下的模型,权重可完全驻留片上,无需频繁访问外部内存,从根本上缓解了 AI 推理中的"内存墙"问题。


性能表现

前二代


23千瓦


图片来源: https://www.bilibili.com/video/BV1FM4y157J9/?spm_id_from=333.337.search-card.all.click&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef

通过核心检测,屏蔽核心 来实现高良率 100% ,还有台积电代工

通过设计成很小的芯片。这样提高良率 1.5%的冗余









2021年台湾的电子杂志

第三代 WSE-3 的优势在**推理(Inference)**场景最为突出:
  • 7B–70B 参数模型:在原生片上运行模式下,推理速度可达1,800–2,500 tokens/秒,比同价位的 NVIDIA H100 集群快约10–21 倍,且功耗和成本更低。
  • 更大模型:通过MemoryX技术从外部流式传输权重,可支持万亿参数模型,但此时优势会收窄。
  • 训练:Cerebras 也支持训练,但软件生态仍弱于 NVIDIA,目前大型前沿模型的训练仍以 GPU 集群为主。

商业动态(2026 年)

Cerebras 于 2026 年 5 月向纳斯达克提交 IPO 申请,目标融资 35 亿美元,估值约266 亿美元(股票代码:CBRS)。

关键合作:

  • OpenAI:签署超过200 亿美元的多年算力采购协议,用于 ChatGPT 和 API 的推理服务,被视为对晶圆级架构的生产级验证。
  • AWS:CS-3 系统已集成至 Amazon Bedrock,企业可通过 AWS 控制台直接调用。

财务数据(2025 财年):

  • 营收约5.1 亿美元,同比增长 76%
  • 净利润约2.38 亿美元(2024 年为亏损)

适用场景

适合:

  • 大模型(70B+)高吞吐量推理,尤其是需要低延迟、高并发的生产环境
  • 稀疏模型、科学计算等可受益于细粒度并行的负载
  • 希望摆脱 NVIDIA 供应链单一依赖的机构

不适合:

  • 严重依赖 CUDA 生态、难以迁移代码的团队
  • 模型规模较小(可轻松放入 GPU HBM)且带宽非瓶颈的场景
  • 预算有限的初创团队(单台 CS-3 系统约 200–300 万美元)

总结

WSE-3 代表了 AI 芯片架构的一条极端差异化路线:用整片晶圆的物理规模换取内存带宽和互连带宽的数量级优势。它在推理吞吐量上确实对 GPU 集群构成了有力挑战,但能否在训练生态和更大模型的通用性上持续突破,将是 Cerebras 上市后需要验证的关键。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询