单元一 Spark 入门 ………………………………………………………… 1
任务 1.1 了解 Spark 及其生态系统 ……………………………………… 2
任务 1.2 设置 Spark 开发环境 ………………………………………… 13
任务 1.3 理解 RDD 和 Spark 的核心概念 …………………………… 20
单元二 RDD 编程 ………………………………………………………… 30
任务 2.1 深入理解 RDD 的操作 ……………………………………… 31
任务 2.2 RDD 的高级特性与优化……………………………………… 42
任务 2.3 RDD 的故障恢复机制………………………………………… 51
单元三 使用 Spark SQL 处理数据 …………………………………… 58
任务 3.1 DataFrame 和 Dataset 的创建与操作 ………………………… 59
任务 3.2 使用 Spark SQL 进行复杂查询 ……………………………… 70
任务 3.3 Spark SQL 的优化技巧 ……………………………………… 80
单元四 结构化流处理……………………………………………………… 88
任务 4.1 Spark 结构化流概念 ………………………………………… 89
任务 4.2 构建流处理应用 ……………………………………………… 98
任务 4.3 触发器和水位线的高级应用 ………………………………… 107
单元五 Spark 机器学习库(MLlib)………………………………… 116
任务 5.1 使用 MLlib 进行数据预处理 ………………………………… 117
任务 5.2 构建和评估模型 ……………………………………………… 124
任务 5.3 模型调参与持久化 …………………………………………… 136
单元六 高级数据处理…………………………………………………… 146
任务 6.1 深入分区和分区策略 ………………………………………… 147
任务 6.2 广播变量和累加器 …………………………………………… 157
任务 6.3 Pipeline 和参数调节 ………………………………………… 165
单元七 Spark 性能调优 ………………………………………………… 176
任务 7.1 内存管理与优化 ……………………………………………… 177
任务 7.2 Shuffle 调优 …………………………………………………… 189
任务 7.3 Spark UI 的使用和日志分析 ………………………………… 198
单元八 部署和监控 Spark 应用 ……………………………………… 207
任务 8.1 Spark 集群管理器概览 ……………………………………… 208
任务 8.2 部署 Spark 应用 ……………………………………………… 214
任务 8.3 监控和调试 Spark 作业 ……………………………………… 218
单元九 Spark 项目实战 ………………………………………………… 225
任务 9.1 实时日志处理系统 …………………………………………… 226
任务 9.2 智能推荐系统 ………………………………………………… 233
任务 9.3 数据湖分析与处理 …………………………………………… 242
单元十 Spark 的未来与生态 ………………………………………… 252
任务 10.1 Spark 在云原生环境中的发展趋势 ………………………… 253
任务 10.2 与大数据生态系统的整合 ………………………………… 261
任务 10.3 未来趋势与学习路径指导 ………………………………… 265
参考文献…………………………………………………………………… 273