致力于提供最具实践性的 Spark 代码开发学习指南。 本开源项目所有非外部存储依赖的应用程序都是可以直接执行的。 本开源项目是 CSDN 专栏 《大数据技术体系》 的配套学习工程。 参考 Apache Spark 官方文档 Apache Spark 源码 spark-examples 模块 《Spark 核心原理与实战》王磊 《Spark 大数据分析源码解析与实例详解》刘景泽 《大规模数据处理实战》蔡元楠 数据集 用户查询日志(SogouQ)版本:2008