Kubeflow学习指南:生产级机器学习系统实现
上QQ阅读APP看书,第一时间看更新

3.1.2 训练operator

JupyterHub是用于数据初始实验和ML作业原型的良好工具。然而,当在生产中进行训练时,Kubeflow提供了一些训练组件来自动执行机器学习算法,包括:

·Chainer训练(https://oreil.ly/AjfwS

·MPI训练(https://oreil.ly/SK19W

·Apache MXNet训练(https://oreil.ly/FvDdQ

·PyTorch训练(https://oreil.ly/0z4j6

·TensorFlow训练(https://oreil.ly/YmGkx

在Kubeflow中,分布式训练作业由特定于应用程序的控制器(称为operator)管理。这些operator扩展了Kubernetes API,用于创建、管理和修改资源的状态。例如,要运行一个分布式的TensorFlow训练作业,用户只需要提供一个描述所需状态的规范(工作节点和参数服务器的数量等),TensorFlow operator组件将负责其余的工作,并负责管理训练作业的生命周期。

这些operator允许自动化重要的部署概念,例如,可扩展性、可观测性和故障转移。它们也可以被Pipeline使用,与系统中的其他组件进行链式执行。