gpu 算力卡颠覆性设计Cerebras WSE-3 第三代晶圆级引擎，全部用sram作为显存，介绍-港品优选

gpu 算力卡颠覆性设计Cerebras WSE-3 第三代晶圆级引擎，全部用sram作为显存，介绍

怪兽级算力卡

Cerebras WSE-3是 Cerebras Systems 推出的第三代晶圆级引擎（Wafer-Scale Engine），也是目前全球面积最大、晶体管数量最多的商用 AI 处理器。它采用与传统 GPU 完全不同的架构路线——将整个 300mm 硅晶圆作为一颗芯片使用，而非切割成数百颗独立小芯片。

## 电源

展会视频部分 https://www.bilibili.com/video/BV1yvSFBAE3N/?spm_id_from=333.337.search-card.all.click&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef

核心规格

参数	WSE-3	对比参考（NVIDIA H100）
制程	TSMC 5nm	TSMC 4nm
芯片面积	46,225 mm²（整片晶圆）	814 mm²
晶体管	4 万亿	800 亿
AI 核心数	90 万个	约 1.8 万个
片上内存	44 GB SRAM	80 GB HBM3
内存带宽	21 PB/s	3.35 TB/s
峰值算力 (FP16)	125 PetaFLOPS	~989 TFLOPS
系统功耗 (CS-3)	~23 kW	~700W（单卡）

架构创新

1. 晶圆级集成（Wafer-Scale Integration）
传统芯片制造将晶圆切割成独立裸片（Die）再封装，而 WSE-3 保留整片晶圆作为单一处理器。这消除了芯片间的通信延迟和带宽瓶颈，数据在 90 万核心之间通过片上 2D 网格互连传输，延迟极低。

2. 缺陷容忍设计
晶圆级芯片面临的最大挑战是制造缺陷。Cerebras 通过以下方式解决：

单个核心仅 0.05 mm²（约为传统核心的 1/100），缺陷影响面积极小
设计 97 万物理核心，激活 90 万个，冗余核心自动替换故障单元
片上路由网络可绕过缺陷区域，实现"故障即隔离"架构
这使得 WSE-3 的缺陷容忍度比传统多核处理器高 100 倍。

3. 近存计算（Compute Near Memory）
44 GB SRAM 直接分布在 90 万核心旁边，提供 21 PB/s 的聚合带宽。对于参数规模在 70B 以下的模型，权重可完全驻留片上，无需频繁访问外部内存，从根本上缓解了 AI 推理中的"内存墙"问题。

性能表现

前二代

23千瓦

图片来源： https://www.bilibili.com/video/BV1FM4y157J9/?spm_id_from=333.337.search-card.all.click&vd_source=7d3841cb81fdca8b20a31fa9ee5ec8ef

通过核心检测，屏蔽核心来实现高良率 100% ，还有台积电代工

通过设计成很小的芯片。这样提高良率 1.5%的冗余

2021年台湾的电子杂志

第三代 WSE-3 的优势在推理（Inference）场景最为突出：

7B–70B 参数模型：在原生片上运行模式下，推理速度可达1,800–2,500 tokens/秒，比同价位的 NVIDIA H100 集群快约10–21 倍，且功耗和成本更低。
更大模型：通过MemoryX技术从外部流式传输权重，可支持万亿参数模型，但此时优势会收窄。
训练：Cerebras 也支持训练，但软件生态仍弱于 NVIDIA，目前大型前沿模型的训练仍以 GPU 集群为主。

商业动态（2026 年）

Cerebras 于 2026 年 5 月向纳斯达克提交 IPO 申请，目标融资 35 亿美元，估值约266 亿美元（股票代码：CBRS）。

关键合作：

OpenAI：签署超过200 亿美元的多年算力采购协议，用于 ChatGPT 和 API 的推理服务，被视为对晶圆级架构的生产级验证。
AWS：CS-3 系统已集成至 Amazon Bedrock，企业可通过 AWS 控制台直接调用。

财务数据（2025 财年）：

营收约5.1 亿美元，同比增长 76%
净利润约2.38 亿美元（2024 年为亏损）

适用场景

适合：

大模型（70B+）高吞吐量推理，尤其是需要低延迟、高并发的生产环境
稀疏模型、科学计算等可受益于细粒度并行的负载
希望摆脱 NVIDIA 供应链单一依赖的机构

不适合：

严重依赖 CUDA 生态、难以迁移代码的团队
模型规模较小（可轻松放入 GPU HBM）且带宽非瓶颈的场景
预算有限的初创团队（单台 CS-3 系统约 200–300 万美元）

总结

WSE-3 代表了 AI 芯片架构的一条极端差异化路线：用整片晶圆的物理规模换取内存带宽和互连带宽的数量级优势。它在推理吞吐量上确实对 GPU 集群构成了有力挑战，但能否在训练生态和更大模型的通用性上持续突破，将是 Cerebras 上市后需要验证的关键。

企业官网建设流程全解析