gpu 算力卡 颠覆性设计Cerebras WSE-3 第三代晶圆级引擎,全部用sram作为显存,介绍
怪兽级算力卡
Cerebras WSE-3是 Cerebras Systems 推出的第三代晶圆级引擎(Wafer-Scale Engine),也是目前全球面积最大、晶体管数量最多的商用 AI 处理器。它采用与传统 GPU 完全不同的架构路线——将整个 300mm 硅晶圆作为一颗芯片使用,而非切割成数百颗独立小芯片。
## 电源
展会视频部分 https://www.bilibili.com/video/BV1yvSFBAE3N/?spm_id_from=333.337.search-card.all.click&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef
核心规格
| 参数 | WSE-3 | 对比参考(NVIDIA H100) |
|---|---|---|
| 制程 | TSMC 5nm | TSMC 4nm |
| 芯片面积 | 46,225 mm²(整片晶圆) | 814 mm² |
| 晶体管 | 4 万亿 | 800 亿 |
| AI 核心数 | 90 万个 | 约 1.8 万个 |
| 片上内存 | 44 GB SRAM | 80 GB HBM3 |
| 内存带宽 | 21 PB/s | 3.35 TB/s |
| 峰值算力 (FP16) | 125 PetaFLOPS | ~989 TFLOPS |
| 系统功耗 (CS-3) | ~23 kW | ~700W(单卡) |
架构创新
1. 晶圆级集成(Wafer-Scale Integration)
传统芯片制造将晶圆切割成独立裸片(Die)再封装,而 WSE-3 保留整片晶圆作为单一处理器。这消除了芯片间的通信延迟和带宽瓶颈,数据在 90 万核心之间通过片上 2D 网格互连传输,延迟极低。
2. 缺陷容忍设计
晶圆级芯片面临的最大挑战是制造缺陷。Cerebras 通过以下方式解决:
- 单个核心仅 0.05 mm²(约为传统核心的 1/100),缺陷影响面积极小
- 设计 97 万物理核心,激活 90 万个,冗余核心自动替换故障单元
- 片上路由网络可绕过缺陷区域,实现"故障即隔离"架构
这使得 WSE-3 的缺陷容忍度比传统多核处理器高 100 倍。
3. 近存计算(Compute Near Memory)
44 GB SRAM 直接分布在 90 万核心旁边,提供 21 PB/s 的聚合带宽。对于参数规模在 70B 以下的模型,权重可完全驻留片上,无需频繁访问外部内存,从根本上缓解了 AI 推理中的"内存墙"问题。
性能表现
前二代
23千瓦
图片来源: https://www.bilibili.com/video/BV1FM4y157J9/?spm_id_from=333.337.search-card.all.click&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef
通过核心检测,屏蔽核心 来实现高良率 100% ,还有台积电代工
通过设计成很小的芯片。这样提高良率 1.5%的冗余
2021年台湾的电子杂志
第三代 WSE-3 的优势在**推理(Inference)**场景最为突出:
- 7B–70B 参数模型:在原生片上运行模式下,推理速度可达1,800–2,500 tokens/秒,比同价位的 NVIDIA H100 集群快约10–21 倍,且功耗和成本更低。
- 更大模型:通过MemoryX技术从外部流式传输权重,可支持万亿参数模型,但此时优势会收窄。
- 训练:Cerebras 也支持训练,但软件生态仍弱于 NVIDIA,目前大型前沿模型的训练仍以 GPU 集群为主。
商业动态(2026 年)
Cerebras 于 2026 年 5 月向纳斯达克提交 IPO 申请,目标融资 35 亿美元,估值约266 亿美元(股票代码:CBRS)。
关键合作:
- OpenAI:签署超过200 亿美元的多年算力采购协议,用于 ChatGPT 和 API 的推理服务,被视为对晶圆级架构的生产级验证。
- AWS:CS-3 系统已集成至 Amazon Bedrock,企业可通过 AWS 控制台直接调用。
财务数据(2025 财年):
- 营收约5.1 亿美元,同比增长 76%
- 净利润约2.38 亿美元(2024 年为亏损)
适用场景
适合:
- 大模型(70B+)高吞吐量推理,尤其是需要低延迟、高并发的生产环境
- 稀疏模型、科学计算等可受益于细粒度并行的负载
- 希望摆脱 NVIDIA 供应链单一依赖的机构
不适合:
- 严重依赖 CUDA 生态、难以迁移代码的团队
- 模型规模较小(可轻松放入 GPU HBM)且带宽非瓶颈的场景
- 预算有限的初创团队(单台 CS-3 系统约 200–300 万美元)
总结
WSE-3 代表了 AI 芯片架构的一条极端差异化路线:用整片晶圆的物理规模换取内存带宽和互连带宽的数量级优势。它在推理吞吐量上确实对 GPU 集群构成了有力挑战,但能否在训练生态和更大模型的通用性上持续突破,将是 Cerebras 上市后需要验证的关键。