前言
在当今这个高度数据化的世界里,管理和分析海量数据是各大互联网企业业务成功的关键。数据仓库项目正是大数据处理的基石项目,在大数据领域有着举足轻重的地位。数据仓库为企业提供了一种强大的数据解决方案,通过有组织且高效地存储、管理和分析数据,推动决策层做出更明智、更有利于企业发展的决策。
尚硅谷教育已经接连出版了多本数据仓库相关的图书,其中《剑指大数据——企业级数据仓库项目实战(电商版)》一书讲解得十分细致,除了全面升级了数据仓库指标体系和数据仓库的技术栈,还增加了数据治理环节。但编者团队以为这本书仍存在不足之处。该书中环境准备和框架的安装部署占据了较大的篇幅,这对于没有项目搭建经验的读者来说足够友好,但是对于已经有一定开发经验的读者来说,恐不能精准把握项目的核心思想。
在数据仓库项目中,数据的组织、处理和计算是整个项目的核心部分。为了帮助读者聚焦核心部分的项目理论和代码编写,在本次改版中我们弱化了环境准备和框架搭建(仍保留关键部分,且读者可通过附赠资料获取详细文档),强化了对数据仓库核心部分内容的讲解,主要体现在两个方面。一方面是强化了对数据仓库构建过程关键代码的思路讲解,将代码实现的关键思路抽丝剥茧地展示给读者,有助于读者快速理解代码、掌握代码。另一方面是增加了大量的图片思路讲解。在图片中,通过若干条关键数据展示数据的处理计算过程,通过箭头表示数据的转化流程。大量的图片讲解可以使读者快速了解复杂函数的使用和复杂的表关联关系。
本次改版除了上述的改动和升级,对数据仓库的关键技术框架,如Hadoop、Hive、Spark和Kafka等进行了版本升级,永远追求更适合、关注度更高的技术是我们编者团队的准则。以上的种种升级,编者团队都进行了反复调研测试,力求理论指导实践,技术框架不落人后,需求实现经得起推敲。
此外,本书依然与《剑指大数据——企业级数据仓库项目实战(电商版)》一书保留了密切的联系,读者若想为本书的项目增加必要的数据治理功能,或者想要了解更详细具体的环境准备和框架搭建过程,《剑指大数据——企业级数据仓库项目实战(电商版)》都可以提供必要的指导。
阅读本书要求读者具备一定的编程基础,至少掌握一门编程语言(如Java)和SQL查询语言。如果读者对大数据的一些基本框架,如Hadoop、Hive等,也有一定了解的话,那么学习本书也将事半功倍。读者如果不具备以上条件,可以关注“尚硅谷教育”公众号,免费获取相关学习资料。
本书中涉及的所有安装包、源码,以及视频课程资料,读者均可以通过关注“尚硅谷教育”公众号,回复“电商数仓”关键字获取。书中难免有疏漏之处,如在阅读本书的过程中,发现任何问题,欢迎私信给“尚硅谷教育”公众号后台。
感谢电子工业出版社的李冰老师,您的精心指导使得本书能够最终面世。也感谢所有为本书内容编写提供技术支持的老师所付出的努力。