更新时间:2024-08-19 16:21:20
封面
版权页
O'Reilly Media,Inc.介绍
文前
本书赞誉
译者序
前言
第1章 为什么数据质量值得关注
1.1 什么是数据质量
1.2 构筑当下
1.2.1 了解“数据宕机的增加”
1.2.2 促成当前形势的其他行业趋势
1.3 总结
第2章 对可靠数据系统的构建模块进行组装
2.1 了解事务型数据和分析型数据之间的差异
2.2 是什么让它们有所不同
2.3 数据仓库与数据湖
2.3.1 数据仓库:模式级别的表类型
2.3.2 数据湖:文件级别的操作
2.3.3 什么是湖仓一体
2.3.4 在仓库和湖之间同步数据
2.4 收集数据质量指标
2.4.1 什么是数据质量指标
2.4.2 如何提取数据质量指标
2.4.3 使用查询日志了解数据仓库中的数据质量
2.4.4 使用查询日志了解数据湖中的数据质量
2.5 设计数据目录
2.6 构建数据目录
2.7 总结
第3章 收集、清洗、转换和测试数据
3.1 收集数据
3.1.1 应用程序日志数据
3.1.2 API响应
3.1.3 传感器数据
3.2 清洗数据
3.3 批处理与流处理
3.4 流处理的数据质量
3.5 数据标准化
3.5.1 处理异构数据源
3.5.2 模式检查和类型强制转换
3.5.3 数据中的句法歧义与语义歧义
3.5.4 管理AWS Kinesis和Apache Kafka之间的事务型数据转换
3.6 运行分析型数据转换
3.6.1 确保ETL期间的数据质量
3.6.2 确保转换期间的数据质量
3.7 警报和测试
3.7.1 dbt单元测试
3.7.2 Great Expectations单元测试
3.7.3 Deequ单元测试
3.8 使用Apache Airflow管理数据质量
3.8.1 调度程序的SLA
3.8.2 在Apache Airflow中安装断路器
3.8.3 SQL检查运算符
3.9 总结
第4章 数据管道的监控和异常检测
4.1 了解已知的未知和未知的未知
4.2 构建异常检测的算法
4.2.1 新鲜度监控
4.2.2 了解分布
4.3 为模式和沿袭构建监控器
4.3.1 模式变更和沿袭的异常检测
4.3.2 对沿袭进行可视化
4.3.3 调查数据异常
4.4 使用Python和机器学习扩展异常检测
4.4.1 利用机器学习改进数据监控警报
4.4.2 假阳性和假阴性的解释
4.4.3 提高精确率和召回率
4.4.4 通过数据监控检测新鲜度事件
4.4.5 F分数
4.4.6 模型的准确率重要吗
4.5 深入探究:其他有用的异常检测方法
4.6 为数据仓库和数据湖分别设计数据质量监控器
4.7 总结
第5章 为数据可靠性进行架构设计
5.1 在摄取数据时评估并维护高数据可靠性
5.2 度量和维护管道中的数据质量
5.3 了解下游的数据质量
5.4 构建数据平台
5.4.1 数据摄取
5.4.2 数据存储和处理
5.4.3 数据转换和建模
5.4.4 商业智能和分析
5.4.5 数据发现和治理
5.5 建立对数据的信任
5.5.1 数据可观测性
5.5.2 评估数据质量的投资回报率
5.5.3 如何为数据设置SLA、SLO和SLI
5.6 案例分析:Blinkist
5.7 总结
第6章 解决大规模数据质量问题
6.1 在软件研发过程中解决数据质量问题
6.2 数据事件管理
6.2.1 事件检测
6.2.2 响应
6.2.3 根因分析
6.2.4 解决
6.2.5 不做指责的复盘
6.3 事件应对与缓解策略
6.3.1 建立事件管理的标准程序
6.3.2 为什么数据事件指挥官如此重要