数据要素化时代的数据治理
上QQ阅读APP看书,第一时间看更新

1.2 DataOps的发展与特点

DataOps的概念最早由莱尼·利伯曼(Lenny Liebmann)于2014年提出,他指出DataOps是优化数据科学团队和运营团队之间协作的一些实践的集合。随后,业界开始对DataOps的概念进行研究和提炼。2015年,英国Tamr公司的安迪·帕尔默(Andy Palmer)提出了DataOps的4个关键构成:数据工程、数据集成、数据安全和数据质量。2017年,美国Nexla公司的贾拉·尤斯顿(Jarah Euston)把DataOps的核心定义为从数据到价值,这是首个把DataOps和业务价值关联起来的定义。自2018年被高德纳(Gartner)公司纳入数据管理技术成熟度曲线以来,DataOps的热度逐年上升。2021—2022年,Forrester公司、国际数据公司(International Data Corporation,IDC)、IBM公司陆续发布各自在DataOps方向的研究和探索。自2022年以来,DataOps处在一个从萌芽期到爆发期的关键过渡阶段,预示着未来2~5年DataOps将得到广泛的实践应用。2022年,中国信通院将DataOps列为当年大数据十大关键词之一,同时发布了DataOps成熟度模型的相关标准,可见国内业界对DataOps的关注也越来越多。

综合各家观点,可用如下几个关键词来概括DataOps的概念:敏捷、协作、自动和业务价值的呈现。那么DataOps究竟能给企业带来什么样的价值呢?主要有以下4点。

(1)能够提高数据生产效率。速度是DataOps的主要驱动力,数据管道的优化使得DataOps能够快速实现一个业务从需求到开发成果的输出,整个流程更加敏捷,并且具备快速迭代的能力,从而及时响应需求的变化。

(2)提高质量和可靠性。DataOps通过定义明确的管道流程来保证研发的规范性,并通过自动化测试和持续集成/持续交付流程来确保交付质量,还通过落标[1]检查和质量校验来保证数据的标准化和准确性。


[1]落标,即落实标准。

(3)自动化和标准化。DataOps通过自动化和标准化的方式,减少了手动干预和重复工作,降低了IT运营和维护的成本。

(4)打破部门之间的界限。DataOps鼓励交流与协作,有利于企业建设数据文化,提高整个企业的生产力,让所有人都愿意通过数据来做分析。

DataOps定义了数据管理的新模式,让数据管道、数据处理流程、数据技术和团队能有效结合起来。图1-3所示为韦恩·埃克森(Wayne Eckerson)给出的一个DataOps框架:中间的数据管道表示从数据来源到数据结果输出的过程,包含数据采集、数据工程和数据分析3个环节;下半部分列出用到的相关技术,包括数据捕获、ETL(Extract-Transform-Load,提取-转换-加载)、数据准备、数据血缘、数据目录、数据治理、数据分析等;上半部分是整个数据管道的处理流程,包含持续集成、持续部署、编排工作流和调度、持续测试等。总的来讲,DataOps将DevOps的敏捷开发和持续集成应用到了数据领域,以优化和改进数据管理者和数据消费者的协作,实现持续交付的数据生产线。

当前整个数据栈的生态蓬勃发展,有很多开源的组件,且不乏行业领先的独角兽企业。然而从数据的集成、加工到调度编排,再到治理和分析,众多技术栈的出现更需要使用DataOps的方法把这些产品和组件集成在一起,以便做好组件的融合和流程编排,让企业的数据开发和运营更便捷、更简单,因此未来几年DataOps的发展将迎来爆发期。

图1-3 DataOps框架