前言
早上六点,手机温柔地唤醒主人,并自动打开消息通知。智能冰箱提醒主人需要订购牛奶,并显示牛奶库存不足,可下单购买更多的牛奶。健身机器可以根据主人的锻炼计划进行个性化选择。一切准备就绪,吃早餐时,不需要盯着时钟,因为手机会根据其对主人通勤的了解和交通模式提醒主人何时该开车出门。当主人离开时,智能家居助手会确保关灯、锁门。几十年前看起来像科幻小说的东西,现在却是我们生活中的普通一天。所有这一切之所以可能,是因为技术在三个关键领域取得了飞跃:无处不在的计算设备、通过将互联网引入这些设备而缩小了世界的连接,以及帮助设备学习模式和做出决策的技术(数据、人工智能、机器学习)。数据现在是世界运作的核心,企业越来越依赖数据来为其业务提供信息和带来转型。
2013年,我在为Microsoft Office开发身份和个性化服务,这开启了我的数据之旅。我在这一年中学习了很多东西,了解了开发基于云的应用程序意味着什么,包括构建直接面向消费者的体验与企业级应用程序之间的细微差别。不过,最重要的是,我很高兴能够从这些云服务直接连接到客户体验。当我们寄送盒装产品(即以CD或DVD形式发货的产品)并让客户将其安装在他们的设备上时,我们了解他们体验的唯一方法是获取匿名遥测数据,组织用户研究或关注小组,或者通读客户遇到问题时的支持案例。我们对产品使用情况的许多见解都基于客户数据,而这只占一小部分。通过构建的云服务,我可以实时了解客户。这有助于调整服务并为用户提供更个性化的体验。我们能够与客户一起实验各种功能,以更好地了解什么对他们的生产力更有帮助。从那时起,我一直在研究各种平台和云服务,我意识到当数据的价值被云的弹性放大时,可以帮助企业实现信息化和转型。
为什么写这本书
多年来,我与不同行业(医疗保健、消费品、零售和制造业等)的数百名客户进行了接触,并帮助他们实现了云上的大数据分析。我还推动了将企业的本地分析工作负载向云的迁移,以利用机器学习中的新兴技术和实现更好的成本管理。可以理解的是,每一个客户都带着不同的动机和问题来找我。然而,有一个共同点将他们联系在一起:从数据中获得价值的强烈愿望。5年前我与这些客户讨论大数据分析的基础知识,现在他们已经开始操作非常成熟的实现,并在数据湖上运行更多的关键业务工作负载。作为这些对话的一部分的几个关键问题可以归结为设置、组织、保护和优化数据湖实现。在理想情况下,这些因素会融入数据湖架构设计中,在某些不幸的情况下,当客户遇到强制重新架构或重新设计的问题时,我们会讨论这些问题。
虽然利用云数据湖有无限可能性,但也伴随着理解和处理在构建和操作云数据湖应用程序时所涉及的复杂性。我相信,虽然业界正在努力简化这一过程,但理解云数据湖解决方案的概念,对于构建经得起时间考验的数据湖架构大有帮助。我非常喜欢帮助我的客户、合作伙伴和团队建立这种基本理解,并看到他们有能力为各自的团队或企业转型提供变革性见解。
在本书中,我希望将所有对话和相关的经验教训集结起来,为数据从业者提供一种方法,帮助他们设计一个可扩展的云数据湖架构,从而为客户的业务提供信息和转型服务。
目标读者
本书主要面向数据架构师、数据开发人员和数据运维专业人员,他们希望广泛地了解设置和运营云数据湖的各个方面。通读本书后,读者将了解以下内容:
• 基于云的大数据战略为组织(企业)带来的好处。
• 架构选择和设计选择,包括现代数据仓库、数据湖仓一体和数据网格。
• 设计高性能、可扩展数据湖的指南和最佳实践。
• 数据治理原则、策略和设计选择。
无论你正在迈出第一步,还是正在考虑实现云上的现代化数据湖,都应准备好与云提供商和工程团队进行知情的、高水平的设计对话,并且能够在时间、精力和金钱方面规划并预算工程投资。大数据分析是发展、技术和范式转变能在眨眼间发生的领域之一。这意味着现在可能存在大量的机会。我愿意对任何特定技术保持中立,因此当一项新技术出现时,我们仍能够在所有可用技术选项的背景下应用这些基础知识。
Klodars公司
在本书中,我们将把云数据湖的概念应用于一个虚构的企业(即Klodars公司),以一个能引起大多数人共鸣的商业问题来说明它们。
Klodars公司是一个虚构的企业,在华盛顿州西雅图销售雨伞和雨具。除了网站销售外,Klodars还雇用销售人员与零售商联系,在西雅图地区批量销售雨伞。它有一个小型的软件开发团队,负责编写应用程序来管理库存和销售,在其办公室维护的服务器上利用SQL Sever作为运行的操作数据库。它还利用Salesforce来管理其客户档案和交互资料。
由于产品的优良质量和出色的销售渠道,Klodars公司在华盛顿州以及邻近的俄勒冈州和爱达荷州迅速扩张,其直接面向消费者的业务正在通过网站迅速发展,营销部门也在社交媒体上开展出色的宣传活动。此外,Klodars希望扩大业务,根据客户需求销售冬季装备。因此,它计划收购另一家销售冬季装备的企业。虽然这对企业来说是个令人振奋的消息,但它正处于转折点,它的数据库技术无法完全满足其不断增长的需求,所以它正在评估向云迁移。
本书概览
虽然我建议你从头到尾阅读这本书,以便全面理解,但每一章都是独立的,你可以根据需求专注于特定的主题。
• 第1章将全面介绍云数据湖的含义及其优势。你还将了解在迁移到云时需要考虑的设计注意事项并做出明智的选择,而不是直接进行迁移。
• 第2章将介绍各种云数据湖架构,你将了解每种架构的价值主张。在该章结束时,你将了解这些云架构适用的场景,并获得企业利用这些架构的具体示例。
• 数据是新的黄金。云数据湖架构的关键是数据层的稳健设计,它为在其上构建的每个场景奠定了基础。第3章将详细介绍数据湖的基础层,以及在数据湖中设计、组织和管理数据的各个方面。我强烈建议重点关注该章,以帮助你设计数据湖,使其既满足你的即时需求,又能随着业务的增长而扩展。
• 第4章将讨论设计数据湖以实现扩展的各种注意事项,还将提供一组最佳实践,供你在构建数据资产和数据管道时借鉴。第5章和第6章将深入探讨两个方面:调整云数据湖以满足所需的性能,以及作为性能关键构建块的数据格式。
• 第7章将介绍一个决策框架,可以基于该框架选择正确的数据湖架构。同时,该章还将提供一个参考清单。
• 第8章包罗万象,涵盖本书前面可能没有回答的问题。随着我们每天学习的知识越来越多,数据湖社区正在成长和快速创新,你有机会影响这些创新,并提出自己的想法。
阅读本书后,你将了解构建云数据湖所需的所有基础知识,并能够以多种方式应用这些知识,包括以下内容:
• 使用书中的设计选择来构建可以随着企业和业务需求的增长而扩展的数据策略。
• 向关键决策者介绍精干的数据平台团队如何使用强大的数据策略推动关键业务转型。
• 利用可扩展的数据基础设施,使你的企业能够专注于关键业务问题。
• 使用云上的高级分析技术使数据实现更多价值。
排版约定
本书使用以下排版约定:
斜体(Italic)
表示新的术语、URL、电子邮件地址、文件名和文件扩展名。
等宽字体(Constant width)
用于程序清单,以及段落中的程序元素,例如变量名、函数名、数据库、数据类型、环境变量、语句以及关键字。
等宽粗体(Constant width bold)
表示应由用户直接输入的命令或其他文本。
等宽斜体(Constant width italic)
表示应由用户提供的值或由上下文确定的值替换的文本。
该图示表示提示或建议。
该图示表示一般性说明。
该图示表示警告或注意。
O'Reilly在线学习平台(O'Reilly Online Learning)
40多年来,O'Reilly Media致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。
我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O'Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O'Reilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。
如何联系我们
对于本书,如果有任何意见或疑问,请按照以下地址联系本书出版商。
美国:
O'Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2号成铭大厦C座807室(100035)
奥莱利技术咨询(北京)有限公司
要询问技术问题或对本书提出建议,请发送电子邮件至errata@oreilly.com.cn。
本书配套网站https://oreil.ly/the-cloud-data-lake-1e上列出了勘误表、示例以及其他信息。
关于书籍、课程、会议和新闻的更多信息,请访问我们的网站https://oreilly.com。
我们在LinkedIn上的地址:https://linkedin.com/company/oreilly-media
我们在Twitter上的地址:https://twitter.com/oreillymedia
我们在YouTube上的地址:https://www.youtube.com/oreillymedia
致谢
写一本书绝非易事,我永远感激那些帮助我编写和出版这本书的人。
首先,我要深深感谢我在Microsoft任职期间的Microsoft Office、Azure HDInsight和Azure Data Lake Storage/Cosmos团队、客户和合作伙伴,感谢他们帮助我建立了对数据空间的理解,并信任我的直觉和方法,让我通过这些产品影响了不同组织的转型洞见。这个人员名单太长了,可以写满一本书。
感谢来自Dremio的Tomer Shiran和Monte Carlo团队的Barr Moses、Lior Gavish和Molly Vorwerck,感谢他们对数据湖仓一体和数据可观测性的启发性采访,这些采访是本书的重要补充。
O'Reilly团队在帮助我规划和体现我的想法和方法方面非常出色。Jill Leonard和Andy Kwan全程参与了本书的写作,无论是讨论某些主题的结构和细节层次,还是帮助我解决语言表达问题。
向花时间通读本书并分享他们宝贵见解和反馈的技术评审者致敬:Shreya Pal、Andrei Ionescu、Alicia Moniz、Prasanna Sundararajan、Chidamber Kulkarni、Gordon Wong、Gareth Eager、Vinoth Chandar和Vini Jaiswal。
最后,没有语言能够表达我对家人的感激之情——我杰出的丈夫Sriram Govindarajan,以及我了不起的孩子Anish Bharadwaj和Dhanya Bharadwaj,他们一直是我灵感和支持的源泉,不仅是这本书,也是生活的源泉。感谢我的父母Janaki Gopalan和Gopalan Krishnamachari,他们灌输给我的核心价值观是努力工作,充满责任感和勇于付出。