1.6 大数据技术生态圈
自然界生态圈和谐统一,为人类提供稳定的自然生态环境。那么,大数据技术生态圈提供了什么呢?首先来看图1-5,这是一个完整的大数据项目模块设计架构图,要完成图1-5所示的各个模块的业务开发,就需要大数据领域中各类技术的支撑,我们把这些为大数据项目提供稳定、安全、可靠的完整技术解决方案的技术总集称为大数据技术生态圈。
图1-5
此项目模块设计架构自下而上分为5个模块,分别介绍如下。
(1)第1个模块是数据收集,即考虑数据的种类有哪些,要利用什么样的技术来采集这些数据。数据类型有历史数据/文件、点击流、数据市场、实时日志和数据流等。主流的大数据日志数据采集系统平台有Flume、kafka、Scribe和S-qoop等。
(2)第2个模块是数据存储,其方式有云存储、云数据库、Hadoop集群、系统管理和自动部署等。从项目的业务角度看,这一块要解决的核心问题是如何存储通过采集平台采集的各种类型的数据。
(3)第3个模块是数据分析BDS、RAS。在大数据领域,对于数据的分析分为两类,一类是离线计算,比如计算电商系统每时每刻产生的历史数据等,这也是目前大数据领域占比最大的一项处理业务;另一类是实时计算,这是相对于离线计算而言的。实时计算的应用,例如实时到账或实时付款这种业务,当业务系统产生数据,大数据平台能够立刻采集、存储并进行计算处理。如今,实时计算的需求越来越多。数据分析领域涌现出了大量优秀的大数据计算框架。离线计算框架有Hadoop MapReduce分布式并行计算框架、Hive分布式数据仓库、Spark-SQL等;实时计算框架有HBase分布式实时数据库、Storm分布式流式计算框架、Spark-Streaming等。
(4)第4个和第5个模块是数据集成DAG和数据交易万象。这两个模块侧重于上层的业务处理。经过数据分析处理,会得到不同的结果,将这些结果集根据业务的需求进行组装集成,形成数据网关、开发套件、BI组件、可视化第三方工具等,为数据交易万象提供服务,形成数据集市层。
然后,用户就可以通过外围的业务系统,根据自己的需要,来这个数据集市上购买需要的数据产品,也就是图1-4中的环境数据、运营商数据、征信数据、金融数据、电商数据等。
相信将来会涌现出更多、更优秀的技术框架,大数据的生态圈将会不断更新、不断丰富。