1.2 分布式计算框架_Ray分布式机器学习：利用Ray进行大模型的数据处理、训练、推理和部署-QQ阅读男生都市网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2 分布式计算框架

Ray的核心是分布式计算框架。本节只讲解基本的术语，第2章会深入讨论Ray的架构。简而言之，Ray设置并管理计算机集群环境，以便用户可以在集群环境中运行分布式任务。Ray集群由通过网络连接的节点组成。用户在位于主节点（head node）的驱动程序（driver，即程序根节点）上编写程序。驱动程序可以运行作业（job），即在集群节点上运行一系列任务。具体而言，作业的各个任务在工作节点（worker node）上的工作进程（worker process）中运行。图1.1展示了Ray集群的基本结构。注意，我们目前不关注节点之间的通信，图1.1仅展示了Ray集群的结构。

有趣的是，Ray集群也可以是本地集群，即仅由自己的计算机组成的集群。在这种情况下，只有一个节点，即主节点，包含驱动程序进程和一些工作进程。默认的工作进程数量是计算机上可用的CPU数量。

图1.1：Ray集群的基本结构

有了这些知识，就可以动手实现第一个本地Ray集群了。在各种主流系统中，都可以使用pip轻松安装Ray，命令如下：

通过pip install ray命令，只能安装Ray的基础部分。由于后文还想探索一些高级功能，因此需要安装其他库，即rllib、serve和tune，稍后我们将对其进行讨论^[8]。根据系统的具体配置，安装命令可能无须使用引号。

接下来，启动Python会话。例如，可以使用ipython解释器，它非常适合简单的示例。在Python会话中，导入并初始化Ray：

如果你不想亲自输入命令，可以打开本章的Jupyter notebook（https://oreil.ly/j9ccz），并在代码notebook中运行代码。读者可以选择任意方式，但是一定要使用Python 3.7或更高版本^[9]。

通过这两行代码，就可以在本地计算机启动Ray集群了。该集群可以利用计算机上所有可用的CPU内核作为工作节点。目前，Ray集群没有做太多工作，但很快就要处理任务。

用于启动集群的init函数是第2章深入探讨的6个基本API方法之一。总体而言，Ray Core API非常易于访问和使用。但由于它是相对底层的接口，因此使用它构建示例需要一定时间。第2章通过一个通用示例帮助读者熟悉Ray Core API，第3章将创建更复杂的强化学习示例。

在上述代码中，我们没有向ray.init（...）函数提供任何参数。如果你想在实际集群上运行Ray，则需要向init传递更多的参数。init调用方法通常被称为Ray客户端，用于与现有的Ray集群进行交互^[10]。关于使用Ray客户端连接生产集群的更多内容，可参考Ray文档（https://oreil.ly/nNhMt）。

当然，如果你使用过计算集群，就会知道使用集群涉及许多陷阱和难点。例如，你可以在由云服务提供商［如Amazon Web Services（AWS）、Google Cloud Platform（GCP）或Microsoft Azure］托管的集群上部署Ray应用程序，每个云计算平台都需要好用的部署和运维工具。你也可以在自己的硬件设备上启动集群，或者使用诸如Kubernetes的工具部署Ray集群。在介绍了具体的Ray应用之后，第9章将再次介绍使用Ray Cluster扩展计算任务。

在介绍Ray的高级库之前，我们简要总结一下Ray作为分布式计算框架的两个基础组件：

Ray Cluster

该组件负责分配资源、创建节点，并确保节点正常运行。快速入门Ray Cluster的好方法是参考为其精心准备的入门指南（https://oreil.ly/rBUil）。

Ray Core

一旦集群运行起来，你就可以使用Ray Core API进行编程。可以遵循Ray Core的官方教程（https://oreil.ly/7r0Lv）学习该组件。

本周热推：

前端程序员面试笔试真题库 Web前端开发技术：HTML、CSS、JavaScript（第2版）C语言从入门到精通 SpringMVC+MyBatis快速开发与项目实战 64位汇编语言的编程艺术