更新时间:2024-10-16 17:49:43
封面
版权信息
作者简介
内容简介
推荐序
前言
第1章 从TOP500和MLPerf看算力芯片格局
1.1 科学算力最前沿TOP500
1.1.1 TOP500的测试方式HPL
1.1.2 TOP500与算力芯片行业发展
1.2 AI算力新标准MLPerf
第2章 高性能CPU流水线概览
2.1 什么是指令
2.2 流水线与MIPS
2.2.1 经典5级流水线概述
2.2.2 超流水线及其挑战
2.3 分支预测
2.3.1 先进分支预测之“感知机分支预测器”
2.3.2 先进分支预测之“TAGE分支预测器”
2.4 指令缓存体系
2.5 译码单元
2.6 数据缓存
2.6.1 多级缓存的数据包含策略
2.6.2 缓存映射关系
2.6.3 受害者缓存
2.6.4 写入策略与一致性协议
2.7 TLB(旁路快表缓冲)
2.8 乱序执行引擎
2.8.1 指令相关的解决方案
2.8.2 寄存器重命名
2.8.3 指令提交与ROB单元
2.8.4 发射队列
2.8.5 数据旁路
2.9 超线程技术
第3章 缓存硬件结构
3.1 DRAM与SRAM设计取舍
3.2 DRAM读/写过程
3.3 SRAM读/写过程(以6T SRAM为例)
3.4 Intel对8T SRAM的探索
3.5 不同规格SRAM的物理特性
3.6 非一致性缓存架构
第4章 CPU计算单元设计
4.1 计算单元逻辑构成
4.2 整数和浮点数的差异
4.3 算术逻辑单元
4.3.1 ALU加法器与减法器
4.3.2 ALU比较单元和位移单元
4.3.3 ALU乘法器与除法器
4.4 浮点数单元
4.4.1 浮点加法器与减法器
4.4.2 浮点乘法器与除法器
4.5 指令的加载和存储单元
4.6 单指令多数据
4.6.1 MMX指令集
4.6.2 3DNow!指令集
4.6.3 SSE指令集及其扩展指令集
4.6.4 AVX指令集及其扩展指令集
4.6.5 AVX-512指令集与下一代AVX10指令集
4.6.6 对AVX指令集的间接实施
4.7 矩阵加速指令集
4.8 ARM SVE指令集
第5章 逻辑拓扑结构
5.1 环形拓扑方式
5.2 Infinity Fabric拓扑方式
5.3 网格拓扑方式
5.4 片上网络(NoC)
5.4.1 NoC分析重点
5.4.2 NoC高速发展的原因
5.4.3 常见NoC拓扑结构及特性
5.4.4 拓扑结构指标参数
5.4.5 拓扑结构改进案例
5.4.6 路由器微架构设计
5.5 近存计算拓扑特性
5.5.1 IPU芯片
5.5.2 WSE芯片
5.6 单芯片UMA与NUMA
第6章 经典算力CPU芯片解读
6.1 申威处理器
6.1.1 SW26010单芯片设计
6.1.2 “神威·太湖之光”系统设计
6.1.3 SW26010对比CPU+协处理器方案
6.1.4 针对SW26010的OpenCL编译系统设计
6.1.5 SW26010后期迭代
6.2 富士通A64FX处理器
A64FX指令流水线设计
6.3 苹果M1处理器
6.3.1 SoC模块化设计
6.3.2 高性能核心流水线设计
6.3.3 计算单元资源
6.3.4 UltraFusion芯片扩展
6.4 Ampere处理器
6.4.1 Ampere Altra
6.4.2 AmpereOne
6.5 IBM POWER处理器
6.5.1 POWER9架构设计
6.5.2 POWER9拓扑技术
6.5.3 POWER10架构分析
6.5.4 POWER10拓扑技术
6.5.5 POWER10 SIMD单元改进与MMA加速器
6.6 EPYC 9004处理器