更新时间:2022-08-16 17:27:24
封面
版权信息
作者简介
内容简介
前言
第1章 大数据基础
1.1 大数据概念及特征
1.2 大数据采集与处理基本流程
1.2.1 大数据采集
1.2.2 大数据预处理
1.2.3 大数据处理
1.3 大数据分析
1.4 大数据应用
1.4.1 大数据应用行业分类
1.4.2 大数据分析在商业上的应用
习题
参考文献
第2章 开源Hadoop
2.1 Hadoop概述
2.1.1 Hadoop简介
2.1.2 Hadoop起源及发展史
2.1.3 Hadoop发行版本
2.1.4 Hadoop特性
2.2 Hadoop生态系统
2.2.1 HDFS
2.2.2 MapReduce
2.2.3 Hive
2.2.4 ZooKeeper
2.2.5 Flume
2.2.6 Kafka
2.2.7 Spark
2.2.8 Storm
2.2.9 Flink
2.2.10 YARN
2.3 Hadoop的安装与使用
2.3.1 环境准备
2.3.2 单机模式
2.3.3 伪分布式
2.3.4 完全分布式安装
第3章 大数据采集
3.1 数据采集与大数据采集
3.1.1 数据采集
3.1.2 大数据采集及数据来源
3.1.3 传统数据采集与大数据采集的区别
3.1.4 大数据采集分类
3.2 大数据采集方法
3.2.1 数据库采集
3.2.2 系统日志采集
3.2.3 网络数据采集
3.2.4 传感器采集
3.2.5 众包采集
3.3 常用采集工具及平台
3.3.1 Flume
3.3.2 Fluentd
3.3.3 Logstash
3.3.4 Chukwa
3.3.5 Scribe
3.3.6 Splunk
3.3.7 Scrapy
3.4 网络爬虫
3.4.1 网络爬虫分类
3.4.2 网络爬虫发展现状
3.4.3 网络爬虫使用技术
3.5 实战
3.5.1 项目准备
3.5.2 架构设计
3.5.3 代码实现
3.5.4 结果展示
第4章 日志采集
4.1 日志采集概述
4.1.1 系统日志分类
4.1.2 日志分析系统架构及日志采集方式
4.1.3 日志采集应用场景与日志分析应用场景
4.1.4 日志采集系统关键技术
4.2 Scribe
4.2.1 Scribe概述
4.2.2 Scribe全局配置
4.2.3 Scribe的存储类型配置
4.3 Chukwa
4.3.1 Chukwa概述
4.3.2 Chukwa架构
4.3.3 Chukwa数据收集应用
4.4 Kafka
4.4.1 Kafka概述
4.4.2 Kafka架构
4.4.3 Kafka日志采集
4.5 Flume
4.5.1 Flume概述
4.5.2 Flume架构
4.5.3 Flume的优势
4.6 实战
4.6.1 Flume安装部署
4.6.2 环境测试
4.6.3 采集目录到HDFS
4.6.4 采集文件到HDFS