1.3 DataOps的实践探索
IDC出具的相关统计报告显示,当前已有10%的企业完全实现了DataOps,而80%以上的企业表示需要实现DataOps,这说明DataOps有着广泛的认同和市场。那么实现DataOps有哪些条件呢?
● 战略:DataOps为数字化转型奠定基础,它是一个经过深思熟虑的数据战略的一部分,组织要明确当前的战略目标和战略范围。
● 文化:DataOps的核心是协作和信任的文化。所有利益相关者都必须共同努力,并对整个过程负责。在所有阶段了解业务需求至关重要。
● 流程:DataOps需要定义明确的流程、角色、准则和指标,以加强DataOps的原则。
● 人员:DataOps需要明确与数据生命周期一致的人力资源,包括内部客户和利益相关者。
● 技术:DataOps需要工具和基础架构来支持自动化、测试和编制,以及所有利益相关者之间的协作和沟通。
上述条件简而言之就是,要实现DataOps,首先要有清晰的战略目标和战略范围,战略目标不一定长远宏大,但一定要明确,要清楚解决什么样的问题;其次需要有协作和信任的文化,数据的开发、管理不只是IT部门的事情,业务部门也要参与进来;最后需要定义明确的DataOps的成员、角色、准则和指标,包括自动化的能力等,配备相应的专业人员并提供技术组件工具的支撑,这样才能够保证企业更好地实现DataOps落地。
在具体实践方面,我们认为DataOps的落地有4个关键点:首先是实现敏捷的数据管道,把传统的、复杂的、割裂的数据工程,转变为敏捷的、一站式的自动化数据管道,通过流程化自动约束DataOps的规范化,并支持多类角色的协作;其次是要具备持续集成/持续发布(CI/CD)的能力,由于数据工程包含多个环节且由多人开发完成,因此数据工程的验证和投产过程十分重要,可以通过版本控制对代码和数据进行管理,通过自动测试验证任务和数据的准确性,通过CI/CD能力提高数据工程从开发到投产的质量和效率;接下来是安全可信的数据资产,也就是说,要保障数据消费者使用的数据是准确合规的,从而让数据管理者能够放心授权数据给数据消费者使用;最后是自助的数据分析和探索能力,业务分析师和数据科学家等可能有一些创新性的研究或碎片化的需求,他们可以在安全授权的前提下,利用简单快速的数据访问和分析能力来探索数据,实现数据民主化。
下面具体介绍实现DataOps落地的每一个关键点。
(1)敏捷的数据管道。敏捷的数据管道强调DataOps过程的自动化和协作化,包括沙箱创建、资源申请、数据发现、数据准备/集成、模型设计、数据加工、任务编排、版本管理、任务测试、部署上线等能力,还涉及多种角色的协作过程,旨在高效地对数据工程、数据技术和数据流程进行结合及流程自动化。图1-4展示了一个敏捷的数据管道。
(2)持续集成/持续发布的能力。传统的数据开发通常会在文本或工具中编写脚本,并将其提交到测试环境进行验证。如果验证出现问题,则需要修改并重新测试脚本。因此传统的数据开发存在以下3个问题。
● 大型数据工程需要多人协作,当团队中有很多人参与编写和修改代码时可能会出现错误,缺少版本控制管理将导致无法找到以前的版本。
● 当切换环境时,需要修改很多环境参数,比如数据集成和加工时的测试或生产环境参数,这很容易造成漏改或错改。
● 传统模式下的整个投产过程缺乏管理,数据审计时发现的问题很难追溯,并且由于数据业务需求变化频繁,即使一次成功的投产,也可能因为后续变更而需要再次进行投产。
图1-4 敏捷的数据管道
此时,持续集成/持续发布的能力将发挥作用。它能够实现环境的统一管理、自动化的编排、测试和上线流程的管理,并提供审计功能。持续集成/持续发布的能力是DataOps的核心。图1-5展示了一个基于DataOps平台进行持续集成/持续发布的示例。
图1-5 数据的持续集成/持续发布
(3)安全可信的数据资产。对于数据资产,数据消费者需要“能找到”“看得懂”“放心用”。数据消费者在进行数据分析前,首先需要找到数据。这就需要一个可搜索且易于理解的数据目录工具,以便找到企业中存在的数据资产,并通过详尽的元数据信息来理解数据,包括业务术语、数据结构、数据分布、数据血缘、数据质量、数据安全和数据合规等信息,从而对数据有清晰的理解和充分的信任。同时,需要确保数据的访问权限和审计能力,以保证数据能够被安全使用。
(4)自助的数据分析和探索能力。一些创新性的研究或碎片化的需求并不需要完整的数据投产就能够让业务分析人员、数据科学家进行数据的探索和数据分析,不需要依赖数据工程师,从而真正地实现数据民主化。因此,我们需要提供自助的数据分析和探索能力,让用户可以自主发现数据,按需申请试用,并编写脚本以分析和验证数据模型的效果。这样就可以满足用户灵活多样的数据分析需求。具体而言,自助的数据分析和探索能力包括如下内容。
● 自助发现:数据消费者根据自己的用数需求,自助地从企业数据资产目录中查找数据。
● 按需访问:数据消费者获得授权后,能够轻松便捷地访问数据。
● 自助使用:针对数据分析需求,数据消费者可以构建个人数据沙箱,在个人数据沙箱中进行数据的分析和探索,并将分析结果导出和可视化。
总的来说,DataOps的能力覆盖了整个数据研发和治理的过程。如图1-6所示,
图1-6 DataOps灵活贯穿整个数据研发和治理的过程
DataOps 从数据的需求阶段开始,贯穿到编码、测试、上线以及价值运营阶段。通过统一的元数据,它可以贯穿所有流程,并且这些流程在实践中可以组合和拆分,以满足企业在DataOps方面的需求。