当前位置: 首页 > 计算机专业 > 大数据技术 >
Spark批处理技术与应用

Spark批处理技术与应用

ISBN:9787566146649

主编:吴荣珍

出版社:哈尔滨工程大学出版社

出版/修订日期:2025年1月

¥ 59.80元

简介 目录
本书深入探讨了 Spark 批处理技术的核心原理与实践应用,帮助读者掌握高效处理大规模数据集的技能。全书涵盖了 Spark 的基本架构和核心组件,如 RDD、DataFrame 和 Dataset,还通过丰富的实战案例展示了如何运用 Spark 进行数据处理、分析和优化。
全书分为 Spark 入门、RDD 编程技术、使用 Spark SQL 处理数据、结构化流处理、Spark 机器学习库(MLlib)、高级数据处理、Spark 性能调优、部署和监控 Spark 应用、Spark 项目实战、Spark 的未来与生态等十个单元,每个单元模块又分为若干个子任务,帮助读者对知识的理解及应用。本书可作为大数据工程师、数据从业者,以及对大数据技术感兴趣的开发者参考书,通过学习本书,读者将能够理解 Spark 批处理的机制,掌握实际项目中的应用技巧,并提升在大数据处理领域的竞争力。
单元一 Spark 入门 ………………………………………………………… 1
任务 1.1 了解 Spark 及其生态系统 ……………………………………… 2
任务 1.2 设置 Spark 开发环境 ………………………………………… 13
任务 1.3 理解 RDD Spark 的核心概念 …………………………… 20
单元二 RDD 编程 ………………………………………………………… 30
任务 2.1 深入理解 RDD 的操作 ……………………………………… 31
任务 2.2 RDD 的高级特性与优化……………………………………… 42
任务 2.3 RDD 的故障恢复机制………………………………………… 51
单元三 使用 Spark SQL 处理数据 …………………………………… 58
任务 3.1 DataFrame Dataset 的创建与操作 ………………………… 59
任务 3.2 使用 Spark SQL 进行复杂查询 ……………………………… 70
任务 3.3 Spark SQL 的优化技巧 ……………………………………… 80
单元四 结构化流处理……………………………………………………… 88
任务 4.1 Spark 结构化流概念 ………………………………………… 89
任务 4.2 构建流处理应用 ……………………………………………… 98
任务 4.3 触发器和水位线的高级应用 ………………………………… 107
单元五 Spark 机器学习库(MLlib)………………………………… 116
任务 5.1 使用 MLlib 进行数据预处理 ………………………………… 117
任务 5.2 构建和评估模型 ……………………………………………… 124
任务 5.3 模型调参与持久化 …………………………………………… 136
单元六 高级数据处理…………………………………………………… 146
任务 6.1 深入分区和分区策略 ………………………………………… 147
任务 6.2 广播变量和累加器 …………………………………………… 157
任务 6.3 Pipeline 和参数调节 ………………………………………… 165
单元七 Spark 性能调优 ………………………………………………… 176
任务 7.1 内存管理与优化 ……………………………………………… 177
任务 7.2 Shuffle 调优 …………………………………………………… 189
任务 7.3 Spark UI 的使用和日志分析 ………………………………… 198
单元八 部署和监控 Spark 应用 ……………………………………… 207
任务 8.1 Spark 集群管理器概览 ……………………………………… 208
任务 8.2 部署 Spark 应用 ……………………………………………… 214
任务 8.3 监控和调试 Spark 作业 ……………………………………… 218
单元九 Spark 项目实战 ………………………………………………… 225
任务 9.1 实时日志处理系统 …………………………………………… 226
任务 9.2 智能推荐系统 ………………………………………………… 233
任务 9.3 数据湖分析与处理 …………………………………………… 242
单元十 Spark 的未来与生态 ………………………………………… 252
任务 10.1 Spark 在云原生环境中的发展趋势 ………………………… 253
任务 10.2 与大数据生态系统的整合 ………………………………… 261
任务 10.3 未来趋势与学习路径指导 ………………………………… 265
参考文献…………………………………………………………………… 273
封面和样张