3.1.2 训练operator_Kubeflow学习指南：生产级机器学习系统实现-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

3.1.2　训练operator

JupyterHub是用于数据初始实验和ML作业原型的良好工具。然而，当在生产中进行训练时，Kubeflow提供了一些训练组件来自动执行机器学习算法，包括：

·Chainer训练（https://oreil.ly/AjfwS）

·MPI训练（https://oreil.ly/SK19W）

·Apache MXNet训练（https://oreil.ly/FvDdQ）

·PyTorch训练（https://oreil.ly/0z4j6）

·TensorFlow训练（https://oreil.ly/YmGkx）

在Kubeflow中，分布式训练作业由特定于应用程序的控制器（称为operator）管理。这些operator扩展了Kubernetes API，用于创建、管理和修改资源的状态。例如，要运行一个分布式的TensorFlow训练作业，用户只需要提供一个描述所需状态的规范（工作节点和参数服务器的数量等），TensorFlow operator组件将负责其余的工作，并负责管理训练作业的生命周期。

这些operator允许自动化重要的部署概念，例如，可扩展性、可观测性和故障转移。它们也可以被Pipeline使用，与系统中的其他组件进行链式执行。