前 言
数据科学的目标是利用数据改变世界,而这个目标主要是通过打乱和改变实际行业中的流程来实现的。要在这个层面上操作,我们需要建立实用的数据科学解决方案,这种方案能解决真正的问题,能可靠地运行,能让人们信任并采取相应的行动。
本书介绍了如何使用Spark来提供生产级的数据科学解决方案,使之具有足够的创新性、颠覆性和可靠性,并值得信赖。在写这本书的时候,作者试图提供一个“超越传统指导教程”风格的作品:不仅提供代码的例子,而且拓展了技术和思维方法。你要像专业人员那样去探索内容;正如他人所言,“内容为王”!读者会注意到本书着重于新闻分析,偶尔也引入其他数据集,如Twitter数据集。这种对新闻数据的强调不是偶然的,是因为作者一直关注全球范围内的数据集。
本书致力于解决的隐含问题是:缺乏数据,以至于无法提供人们如何以及为什么做出决策的背景信息。通常,可直接访问的数据源非常关注问题的细节,因此,要想了解人们做出决策的依据就需要更广泛的数据集。
思考一个简单的例子,网站用户的关键信息(如年龄、性别、位置、购物行为、订单等)都是已知的,我们可以使用这些数据,根据人们的购物习惯和喜好来进行推荐。
但要想更进一步,就需要更多的背景数据来解释人们为什么会这样做。新闻报道称,一场巨大的大西洋飓风正在逼近佛罗里达海岸线,可能在36小时内到达海岸,这时我们应该推荐人们可能需要的产品,如支持USB的电池组,用于手机充电,还有蜡烛、手电筒、净水器等。通过了解决策的背景,我们可以进行更好的科学研究。
本书提供配套代码,而且在许多情况下这些代码是独一无二的实现。本书深入研究掌握数据科学所需要的技术和技能,其中一些经常被忽视或根本不被考虑。作者拥有多年的商业经验,充分利用自己丰富的知识体系,为大家呈现了一个真实的、令人兴奋的数据科学世界。