内容简介

大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础，是针对其需求设计的算力及基础架构。本书针对如何为大模型构建基础架构进行深入讲解，并基于TOGAF方法论，剖析业界知名案例的设计方案。

全书总计13章。第1章讲解AI与大模型时代对基础架构的需求；第2章讲解软件程序与专用硬件的结合，涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练；第3章剖析GPU的硬件架构，涉及GPU的总体设计、Nvidia GH100芯片架构和拥有其他Hopper架构的GPU；第4章讲解GPU服务器的设计与实现；第5章讲解机器学习所依托的I/O框架体系；第6章讲解GPU集群的网络设计与实现；第7章讲解GPU板卡算力调度技术；第8章讲解GPU虚拟化调度方案；第9章讲解GPU集群的网络虚拟化设计与实现；第10章讲解GPU集群的存储设计与实现；第11章讲解如何基于云原生技术为机器学习应用设计与实现更好的开发和运行平台；第12章讲解基于云平台的GPU集群的管理与运营，涉及云运维平台、云运营平台和云审计平台；第13章基于一个服务机器学习的GPU计算平台落地案例，展示如何针对机器学习应用进行需求分析、设计与实现。

无论是高等院校计算机与人工智能等相关专业的本科生或研究生，还是对并行计算技术、云计算技术、高性能存储及高性能网络技术感兴趣的研究人员或工程技术人员，都可以参考和阅读本书。