更新时间:2021-12-06 11:52:01
封面
版权信息
版权声明
O'Reilly Media Inc.介绍
译者序
对本书的赞誉
序
前言
第 1 章 Apache Spark 简介:一站式分析引擎
1.1 Spark的起源
1.1.1 谷歌的大数据和分布式计算
1.1.2 雅虎的Hadoop
1.1.3 Spark在AMPLab崭露头角
1.2 什么是Spark
1.2.1 快速
1.2.2 易用
1.2.3 模块化
1.2.4 可扩展
1.3 一站式数据分析
1.3.1 由Spark组件组成的一站式软件栈
1.3.2 Spark的分布式执行
1.4 开发者体验
1.4.1 哪些人用Spark,用它做什么
1.4.2 社区接受度与社区发展
第 2 章 下载并开始使用 Apache Spark
2.1 第1步:下载Spark
Spark的目录和文件
2.2 第2步:使用Scala shell或PySpark shell
使用本地机器
2.3 第3步:理解Spark应用的相关概念
2.3.1 Spark应用与SparkSession
2.3.2 Spark作业
2.3.3 Spark执行阶段
2.3.4 Spark任务
2.4 转化操作、行动操作以及惰性求值
窄转化与宽转化
2.5 Spark UI
2.6 第一个独立应用
2.6.1 统计M&M巧克力豆
2.6.2 用Scala构建独立应用
2.7 小结
第 3 章 Apache Spark 的结构化数据 API
3.1 RDD的背后是什么
3.2 Spark支持结构化数据
关键优点与好处
3.3 DataFrame API
3.3.1 Spark的基本数据类型
3.3.2 Spark中结构化的复杂数据类型
3.3.3 表结构与DataFrame
3.3.4 列与表达式
3.3.5 行
3.3.6 常见的DataFrame操作
3.3.7 完整的DataFrame示例
3.4 Dataset API
3.4.1 有类型对象、无类型对象,以及普通行
3.4.2 创建Dataset
3.4.3 Dataset操作
3.4.4 完整的Dataset示例
3.5 对比DataFrame和Dataset
何时选用RDD
3.6 Spark SQL及其底层引擎
Catalyst优化器
3.7 小结
第 4 章 Spark SQL 与 DataFrame:内建数据源概览
4.1 在Spark应用中使用Spark SQL
基础查询示例
4.2 SQL表和视图
4.2.1 有管理表和无管理表
4.2.2 创建SQL数据库和SQL表
4.2.3 创建视图
4.2.4 查看元数据
4.2.5 缓存SQL表
4.2.6 将表读取为DataFrame
4.3 DataFrame和SQL表的数据源
4.3.1 DataFrameReader
4.3.2 DataFrameWriter
4.3.3 Parquet
4.3.4 JSON
4.3.5 CSV
4.3.6 Avro
4.3.7 ORC
4.3.8 图像
4.3.9 二进制文件
4.4 小结
第 5 章 Spark SQL 与 DataFrame:读写外部数据源
5.1 Spark SQL与Apache Hive
用户自定义函数
5.2 用Spark SQL shell、Beeline和Tableau查询
5.2.1 使用Spark SQL shell
5.2.2 使用Beeline
5.2.3 使用Tableau
5.3 外部数据源
5.3.1 JDBC和SQL数据库
5.3.2 PostgreSQL
5.3.3 MySQL
5.3.4 Azure Cosmos DB
5.3.5 MS SQL Server
5.3.6 其他外部数据源
5.4 DataFrame和Spark SQL的高阶函数
5.4.1 方式1:打散再重组