![Spark海量数据处理:技术详解与平台实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/273/27600273/b_27600273.jpg)
上QQ阅读APP看书,第一时间看更新
第1章 序篇
Spark从2009年问世以来,就以星火燎原之势迅速席卷业界。我还记得在2011年左右,在搜索引擎中输入“Spark”的关键字,置顶结果是雪佛兰的Spark汽车,而如今,Spark已经成了事实上的大数据处理的工业标准、技术栈和行业领先解决方案,不得不令人感叹技术的日新月异。
目前Spark项目被托管在GitHub上,从GitHub上的统计来看,Spark无论是从Contributor还是从commit数量上来说,都可以说是最活跃的开源项目之一,如图1-1和图1-2所示。
![](https://epubservercos.yuewen.com/D7C5BF/15851745705507406/epubprivate/OEBPS/Images/figure_0015_0001.jpg?sign=1738892871-SR4sSmELJmrgGVss6Z8D11KAJZH0D1Wn-0-0b51f8cab05a7271bdb8616f6cc4e34c)
图1-1 Spark Contributor人数日益增加
![](https://epubservercos.yuewen.com/D7C5BF/15851745705507406/epubprivate/OEBPS/Images/figure_0015_0002.jpg?sign=1738892871-cNtxP8PVGVPpFdYQ3OLrM4WvfALroUiN-0-ba8e0e62a5edc7817b227a83f5b853d0)
图1-2 Spark活跃度
Spark诞生于学界,成长于社区,它利用了开源社区的力量与文化,集中了世界上的一群天才们,夜以继日地为Spark做出贡献,这也是Spark发展迅速的原因之一。本章将介绍Spark的背景、生态圈以及思想,为本书后面的学习打下基础。
本章包含以下内容:
● Spark与BDAS;
● Databricks;
● 如何用GitHub为Spark贡献代码;
● 函数式编程思想。