算力芯片:高性能CPU/GPU/NPU微架构分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.2 TOP500与算力芯片行业发展

本书围绕算力芯片展开介绍,讲述高集成度、高并行度、高通用性的CPU和GPU等芯片设计思路。那么到底什么是算力芯片?在这个问题上,TOP500是一扇窗,透过对超级计算机的架构分析,我们找到了多种层面对算力芯片的定义方式。

从绝对算力角度分析,历史上的TOP500 超级计算机算力在很多年之后大概率会以单芯片形式呈现。

FLOPS是Floating Point Operations Per Second的缩写,意指每秒浮点计算次数,可理解为计算速度,是一个衡量硬件算力的指标。一个MFLOPS(Mega FLOPS)等于每秒一百万次的浮点计算,一个GFLOPS(Giga FLOPS)等于每秒十亿次的浮点计算,再向上每3个数量级,分别有TFLOPS(Tera FLOPS)、PFLOPS(Peta FLOPS)、EFLOPS(Exa FLOPS)、ZFLOPS (Zetta FLOPS)来衡量浮点算力。需要说明的是,芯片厂商披露的理论整数或者浮点算力,是所有计算单元满负载运行时所能达到的极限峰值,实际上由于数据传输限制和算法等问题,芯片无法始终让计算单元满载。

第一款计算速度突破1TFLOPS的超级计算机是Cray公司的Cray T3E-1200E。在20世纪90年代初,Cray T3E及其变种登上TOP500榜单。

RV770芯片是首款浮点算力超过1 TFLOPS的GPU,它于2008年6月发布,其对应的显卡产品Radeon HD 4850的浮点处理能力为1 TFLOPS单精度浮点算力,这是当时一款热门的消费级显卡产品。

第一款计算速度突破1 PFLOPS(每秒千万亿次浮点计算)的超级计算机是IBM的Roadrunner。2008年Roadrunner由美国洛斯阿拉莫斯国家实验室构建。在2008年6月的TOP500榜单中,Roadrunner成为第一台正式突破1 PFLOPS性能的超级计算机,它使用了 IBM的Cell Broadband Engine和AMD Opteron处理器的混合架构。

2022年年底发布的基于Hopper架构GPU产品的计算卡H100 SXM5产品,使用稀疏性矩阵特性,其神经网络专用的TF32浮点算力在Tensor Core张量核的加速下达到了989.4TFLOPS,基本达到1PFLOPS,FP8和INT8精度的算力达到3957.8TFLOPS,接近4PFLOPS。可见我们距离超级计算机并不遥远,之前需要大量能源和面积堆砌的巨型计算机,正在被单颗算力芯片所取代。

而这些算力芯片又在堆砌新的超级计算机算力巅峰,比如2023年5月披露的美国橡树岭国家实验室(ORNL)的Frontier前沿超级计算机,采用了AMD第三代EPYC处理器,频率为2GHz,整个系统共有8699904个内核。每个HPE Cray EX节点包括一块AMD的64核处理器,512GB的DDR4内存,以及4块Instinct MI250X计算卡。

表1-1为2023年6月TOP500排行榜前十名,其中,System一栏有计算机名称、配置细节、设计建造方和所属国家;Cores是CPU物理核心数量;Rmax是实际运行Linpack基准测试的测量值;Rpeak是硬件理论峰值性能,也就是所有计算单元(含CPU内部的SIMD和外接GPU类加速器)的FP64浮点峰值吞吐量性能。

表1-1 2023年6月TOP500排行榜前十名

续表

从技术趋势角度分析,TOP500所关注的热门技术在未来大概率是算力芯片的竞争领域。

加速器/协处理器以型号为维度在超级计算机中的应用如图1-4所示,2006 年,第一款ClearSpeed CSX600加速器被HECToR(High-End Computing Terascale Resource,英国的国家高级计算资源,主要用于支持科学和工程研究)使用,自此通过外接协处理器的方式(特别是GPU)提供浮点算力成为主流。在2023年6月的TOP500榜单中,前10名中有8台采用加速器方案,其中AMD Instinct MI250X、NVIDIA A100 SXM4、NVIDIA A100加速器榜上有名。使用异构计算模式提高系统整体的峰值算力是很有必要的,也是很经济节能的。CPU把大部分电路逻辑部署在指令控制方面,而GPU等芯片简化了这个流程,腾出尽可能多的晶体管资源放在执行端。

图1-4 加速器/协处理器以型号为维度在超级计算机中的应用

近几年来,超级计算机、消费级应用和一些轻度机器学习训练任务也要求计算机配备GPU,如图像和视频编辑软件、AI绘画软件、轻量级的自然语言处理和金融领域的模型构建等工程化的课题。

ARM架构的崛起也是一股重要力量。ARM架构最初被设计为低功耗的解决方案,主要应用于移动设备。随着HPC领域对能效越来越关注,尤其是当数据中心和超级计算机的能耗与散热成为主要关注点时,ARM的低功耗特性开始吸引人们的注意。ARM在HPC领域的崛起可以归因于其低功耗的优势、开放的授权模型以及对应该领域特定需求的定制能力。日本的超级计算机“富岳”(Fugaku)开发的ARM指令集架构A64FX处理器Fujitsu就是这样一个例子。富岳在2020年夺得TOP500榜单的第一名,这标志着ARM在HPC领域的正式崛起。随着技术的发展和软件生态系统的成熟,可以预期ARM在HPC领域的影响力将继续提高。

TOP500的超级计算机在拓扑互连技术上经历了很多变化。这些互连技术起初只出现在超级计算机中,但随着技术进步,逐渐在高性能计算的其他领域得到了应用。比如计算节点之间的拓扑方式,经历了星形互连、环形互连、全互连Mesh网络等结构,这些结构从2005年左右出现在大量消费级CPU中。目前无论是AMD还是Intel都使用了多层级的互连方式来管理一个物理CPU上的多个计算核心,一款千元级的CPU也很容易拥有超过10个核心,它们之间的互连技术同样很受消费者关注。

但是TOP500并非唯一衡量算力的标准,TOP500的榜单主要侧重于传统的高性能计算,而并不专门针对人工智能或深度学习的系统,所以它至今依然以精确的FP64双精度算力作为评判标准,而非更加灵活的低精度和混合精度方案。