大计算概论与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 大计算

近年来,国家、地方政策文件陆续提出了云数据中心、智能计算中心(artificial intelligence data center,AIDC)、一体化大数据中心、新型数据中心等概念,信息通信行业不同的参与主体也提出了云网融合、算网一体、大计算等概念。

云数据中心、智能计算中心、超算中心主要是通过数据中心采用的技术架构、提供的服务类型等维度来区分的,其本质都是提供计算能力的不同形式和类型。而云网融合、算网一体主要侧重于云计算、算力资源与网络的融合发展。

在算力架构方面,传统计算与网络分离模式逐渐向计算与网络融合方向演进。未来,算力网络的演进将从目前的算网分治逐步走向算网协同,最终发展为算网一体。未来,算力会像水、电一样通过算力网络为客户提供可计量的标准化服务。

关于什么是大计算,业界没有统一的定义。比较常见的观点是:大计算囊括了基础算力、智能算力以及超算算力在内的不同类型的算力资源,这也是狭义上的大计算。从广义上来说,大计算除了包括算力资源,还包括数据中心基础设施、算力网络、算力调度平台、算力管理平台等(如图1-4所示)。

本书认为,大计算是融合了算力生产、算力传输和算力能力服务的综合体。大计算是新基建的核心组成部分,通过深度应用互联网、大数据、人工智能等新兴技术,大计算支撑传统基础设施转型升级,形成融合基础设施,对于我国数字经济发展支撑意义重大。

图1-4 大计算架构图

前文说到,大计算包括了智能计算(智算)、超级计算(超算)和云计算等几类算力资源,这几类算力资源的主要区别在于软件和业务架构不一样。

超算可以理解为一台包含大量节点的超级计算机,不同节点通过高速互联网络连接;云计算则是将大量服务器组成一个分布式计算系统,更多地强调计算资源调度系统;智能计算可以理解为如何将AI算法更高效地跑在分布式计算系统或者超算系统上,更多强调的是如何设计相应的计算框架来并行加速跑AI算法。

下面,我们以超算与云计算为例,分析一下不同算力之间的区别。

(1)应用领域对比。

云计算的发展就是共享经济在计算领域的演进,面向所有需要信息技术的场景,应用领域和应用层次不断扩张,以支撑构造千变万化的应用。超算则主要提供国家高科技领域和尖端技术研究需要的运算速度和存储容量,包括航天、国防、石油勘探、气候建模和基因组测序等,如美国的Sequoia超级计算机的设计初衷主要是应用于核试验模拟,Mira超级计算机主要用于研究星体爆炸、核反应、气候变化、喷气发动机等。

(2)技术架构对比。

云计算以分布式为特色,统筹分散的硬件、软件和数据资源,通过软件实现资源共享和业务协同,运行的任务也是分布式的。在云计算的基础上,又可引申出边缘计算、云边协同等模式。超算集群逻辑上是集中式的,针对计算密集型任务,更强调通过并行计算来获得高性能,各节点任务存在前后的依赖,对节点之间数据交换的延迟要求非常高。

(3)成本与性能对比。

云计算是规模经济,讲究成本效益,一般采用高性价比的硬件搭建,其可用性、可靠性、扩展性主要通过软件来实现。而要做好超算,则必须舍得花钱堆计算和存储能力,其能耗也很高。

随着我国“东数西算”工程正式启动,大计算相关产业迈入高速发展的新阶段,逐步形成了新的技术体系,推动了新业态的兴起。在大计算的发展过程中,算力、算力网络等核心构成部分仍存在以下几个方面的问题:

(1)算力资源结构有待优化。算力资源方面,虽然近年来智能计算发展迅猛,但智能计算、超算的总体规模较小,部分地区出现了专用算力不足、通用算力过剩的情况,无法满足国防科技、产业转型和社会生活对于多元普惠算力的需求。

(2)算力产业生态体系仍需完善。算力产业构成复杂,硬件、操作系统、数据库等产业体系需多方共建。目前,不同操作系统、固件、整机、芯片平台的兼容性问题突出,平台兼容性问题制约了产业的进一步发展。

(3)算力衡量指标尚未统一。算力衡量指标多维,而现有标准化工作推进不够完善,因此,算力暂时还无法像水、电一样进行标准化的计量。算力的统一标识和度量需要考虑诸多因素,但在计算系统中,很难建立一个统一的标准来比较不同计算机的性能(而且算力的度量除了与硬件资源的计算能力、存储能力和通信能力相关,还取决于配套的业务支撑能力)。

(4)算网融合处于研究阶段。在当前的研究阶段,算网融合的实现路径还没有统一,国内三大电信运营商都提出了自己的实现路径和实践案例,预计未来还会有大量的标准化工作需要做。