A100 40G和魔改4090 48G模型训练算力比较-港品优选

这篇文章的测试主要针对两个问题：

之前比较过3090、4090和5090的算力差异：
使用PyTorch进行显卡AI性能实测
ResNet-50模型实测深度学习场景显卡性能

这里还是使用ResNet-50进行模型训练测试。

两张显卡的参数规格：

在晨涧云AI算力平台分别租用A100 40G和4090 48G的云主机实例。

基于Pytorch框架来训练ResNet-50模型，使用CIFAR-10数据集进行测试对比。

补充之前测试的4090 24G的结果：

可以看到魔改48G显存的4090显卡在算力方面并没有折损，并且48G显存提供了更多的BatchSize样本吞吐空间。

使用了FP32和FP16混合训练精度，相比之前3090和4090的测试，因为A100 40G和4090 48G有更大的显存，训练批次在原先的基础上增加了384的BatchSize，看训练吞吐量的差异：

看在GPU使用率比较高的场景下（BatchSize>=256），模型训练样本的吞吐速度比较；单精度训练A100 40G的样本吞吐速度是4090 48G的125%，半精度训练A100 40G的样本吞吐速度是4090 48G的105%。

综合而言，A100作为专业级训练卡在训练场景还是有其优势的，而且A100支持NVLink和MIG；但相比4090的算力差距并不明显，而4090在其他场景，特别是图像处理、3D渲染等也非常能打，再加上魔改的48G显存，目前在中端显卡市场可以说是最全面的存在。

企业官网建设流程全解析