上QQ阅读APP看书,第一时间看更新
前言
今天,大数据和人工智能正以前所未有的广度和深度影响着各行各业。现在及未来公司的核心壁垒就是数据,核心竞争力来自基于大数据的人工智能。Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。
在任何规模的数据计算中,Spark在性能和扩展性上都具有优势。
Spark中的Spark SQL、Spark Streaming、MLlib、GraphX、R五大子框架和库之间可以无缝地共享数据和操作,这不仅打造了Spark在当今大数据计算领域其他计算框架都无可匹敌的优势,而且使Spark正在加速成为大数据处理中心首选的通用计算平台。
本书将带您了解Spark大数据实时计算的基本概念并进行实战操作。通过对本书的学习,您将对Spark大数据实时计算技术有深刻的认识,并且掌握大数据技术中主流的实时计算工具SparkRDD、Spark SQL、Spark Streaming等;再通过对大数据的实时计算项目案例开发的学习,您将了解Spark大数据实时计算技术的实际应用。学习本书是您掌握大数据实时计算技术非常好的入门途径。
作者在编写本书时力求内容科学准确、系统完整、通俗易懂,让初学者能快速掌握大数据技术,同时对专家级读者也具有一定的参考价值。希望通过本书对大数据技术的推广和传播,让大数据技术走进我们的生活、学习和工作中。
由于作者水平有限,书中难免出现疏漏,敬请读者批评指正。
致谢
感谢人民邮电出版社责任编辑赵轩,因为他的辛勤工作才让本书的出版成为可能。
感谢曾经和我一起奋战在“大数据一线”的孟老师、马老师、游老师、赵老师、李老师。
最后,特别感谢我的父亲、母亲、岳父、岳母及我的妻子,是他们的全力支持才使我能够顺利完成此书。
杨力
2022年7月