数据要素化时代的数据治理
上QQ阅读APP看书,第一时间看更新

1.1 DataOps促进数字化转型

在当前的数字经济时代,我国政府出台了一系列规划和意见,强调数据作为一种新型的生产要素,应该赋能数字化转型和实体经济,因此对数据管理提出了新的要求,即能够高效、合规、有序、自主地利用数据,在组织内部要能促进数字化转型,在组织外部要能保障数据要素的有序流通。

当前的数据管理诉求与现状仍存在较大差距,如图 1-1 所示。企业希望能够快速地调取数据,更快地获得数据洞察;能够有准确的数据以便辅助做出正确的决策;能够有自助分析的能力,让数据分析师、数据科学家进行创新探索;能够在安全合规的环境中使用数据,等等。由此可见,企业在数字化转型方面依然任重而道远。

与此同时,我们也看到了云和大数据技术的普及和演变,以及开源社区的活跃,出现了湖仓一体、流批一体等众多数据架构和新的数据组件(以下简称组件)。这些组件的出现说明当前企业的数据体量更大、类型更加多样化并且数据分析过程更加复杂。但每一种组件的出现主要是为了解决特定的问题,因此这些组件的组合使用带来了新的挑战,包括复杂的数据管道、割裂的元数据、较高的使用门槛和运维成本、不安全的数据环境等。

当前企业在数据管理方面的诉求是从“管”到“用”的转变:希望有敏捷的数据管道,以便对数据复杂的流程做好编排;希望有统一的元数据,以便形成准确一致的数据语义,让数据消费者能够在统一的语言里去理解数据的含义;希望有自主独立的工作空间,从而能够让不同的数据消费者进行独立的探索;希望有安全可信的数据环境,以便数据消费者更放心地利用数据。图1-2展示了现代数据栈及其特点,从中可见当下企业对数据管理提出了更高的要求。

图1-1 数据管理诉求与现状的差距

图1-2 现代数据栈及其特点

面对快速变化的业务需求和复杂的技术组件,业界借鉴DevOps(开发运维一体化)的方法,提出DataOps(数据研发运营一体化)的概念。DataOps是应对业务需求快速变化和业务价值转化的关键策略,其通过构建和增强数据管道的方法和技术,满足新技术引入和数据流向价值流转化的需求。

DataOps是一种将敏捷、DevOps、精益和产品思维等多个方法论融合在一起的数据开发和运营方法,以实现更高效、更灵活、更稳定的数据生命周期管理。DataOps强调从业务需求到数据分析价值输出的全链条整合,旨在实现敏捷和协作的数据开发,利用DataOps的持续集成/持续交付(Continuous Integration / Continuous Delivery, CI/CD)能力来最大限度地减少流程浪费,并专注于业务本身的成本和收益。同时,DataOps 能够充分体现产品思维,输出能够最大限度满足业务需求的内容,从而实现数据从数据流向价值流的转化。

在DataOps中,敏捷的思想体现在快速响应业务需求和变化。参考DevOps的方法,DataOps实现了数据工程更短的迭代周期和更高的交付效率。精益思想的应用可以帮助团队更好地理解数据价值流,消除数据开发和运营过程中的浪费,优化流程,提高数据生产效率和质量。产品思维是一种以用户需求为中心、持续创新和迭代的思考方式,强调的是用户体验和价值创造。在DataOps中,产品思维的应用可以帮助团队更好地理解业务需求,将用户价值放在首位,优化数据产品的设计和功能,实现更高效、更灵活、更稳定的数据生命周期管理。