OptiScaler:打破硬件壁垒,让所有显卡都能享受超分辨率技术
2026/6/9 12:48:35
这篇文章的测试主要针对两个问题:
之前比较过3090、4090和5090的算力差异:
使用PyTorch进行显卡AI性能实测
ResNet-50模型实测深度学习场景显卡性能
这里还是使用ResNet-50进行模型训练测试。
两张显卡的参数规格:
| A100 40G | 4090 48G | |
|---|---|---|
| 架构 | Ampere | Ada Lovelace |
| CUDA核心数 | 6,912 | 16,384 |
| 显存容量 | 40GB HBM2 | 48 GB GDDR6X |
| 显存带宽 | 1,555 GB/s | 1,008 GB/s |
| TDP功耗 | 250W | 450W |
| FP32 算力 | 19.5 TFLOPS | 82.6 TFLOPS |
| Tensor FP16 算力 | 312 TFLOPS | 330 TFLOPS |
在 晨涧云AI算力平台 分别租用A100 40G和4090 48G的云主机实例。
基于Pytorch框架来训练ResNet-50模型,使用CIFAR-10数据集进行测试对比。
补充之前测试的4090 24G的结果:
可以看到魔改48G显存的4090显卡在算力方面并没有折损,并且48G显存提供了更多的BatchSize样本吞吐空间。
使用了FP32和FP16混合训练精度,相比之前3090和4090的测试,因为A100 40G和4090 48G有更大的显存,训练批次在原先的基础上增加了384的BatchSize,看训练吞吐量的差异:
看在GPU使用率比较高的场景下(BatchSize>=256),模型训练样本的吞吐速度比较;单精度训练A100 40G的样本吞吐速度是4090 48G的125%,半精度训练A100 40G的样本吞吐速度是4090 48G的105%。
综合而言,A100作为专业级训练卡在训练场景还是有其优势的,而且A100支持NVLink和MIG;但相比4090的算力差距并不明显,而4090在其他场景,特别是图像处理、3D渲染等也非常能打,再加上魔改的48G显存,目前在中端显卡市场可以说是最全面的存在。