大数据技术入门(第2版)
上QQ阅读APP看书,第一时间看更新

1.4 数据湖(Data Lake)

大数据是个机遇,也是个挑战,它是用传统的技术方法无法解决的数据问题。关于大数据,企业应该先想的问题不是这些数据能为我赚多少钱,而是如果我不去整合内部和外部的数据,存储数据,分析数据,那么未来我会失去多少钱?我会比竞争对手落后多少?有些数据是需要从其他渠道拿到。数据的整合不是一朝一夕的事情,而是需要经过一些时间的累积,最终形成企业自己的数据湖(Data Lake)。整合数据和数据分析本身就不是先有鸡还是先有蛋的问题,而是你不养鸡,肯定就不会有蛋。在未来的竞争格局中,数据往往能发挥先发制人的作用和优势。

简单来说,数据湖是一个集中式存储库,允许企业以任意规模存储所有结构化和非结构化数据。可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析:大数据处理、实时分析和机器学习,以做出更好的决策,如图1-19所示。实施数据湖的企业能够进行新类型的分析,例如通过日志文件、来自点击流的数据、社交媒体以及存储在数据湖中的互联网连接设备等新来源的机器学习。这有助于他们通过吸引和留住客户、提高生产力、主动维护设备以及做出明智的决策来更快地识别和应对业务增长机会。图1-20所示的是Amazon提供的基于云的数据湖解决方案。

图1-19 数据湖

图1-20 Amazon数据湖