Hadoop大数据实战权威指南(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 大数据的时代背景

1.1.1 全球大数据浪潮

为什么最近几年大数据变得如此引人注目?大数据到底有多大?

一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多;发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万。

目前,全球数据量已经从TB(1024 GB=1 TB)级别跃升到PB(1024 TB=1 PB)、EB(1024 PB=1 EB)乃至ZB(1024 EB=1 ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49 ZB,2009年的数据量为0.8 ZB,2010年增长到了1.2 ZB,2011年的数量更是高达1.82 ZB,相当于全球每人产生200 GB以上的数据。而到了2016年,人类生产的所有印刷材料的数据量是300 PB,人类历史上说过的所有话的数据量大约是5 EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去在最近几年内产生的,而到了2020年,全世界所产生的数据规模将达到2016年的44倍。

这样的趋势将会持续下去。我们现在还处于大数据的初级阶段,随着技术的进步,设备、交通工具和迅速发展的可穿戴科技将实现互连互通。科技的进步已经使创造、采集和管理信息的成本降至十年前的六分之一,而从2005年起,用在硬件、软件、人才及服务之上的商业投资也增长了整整50%,达到了4000亿美元。

正如《纽约时报》2012年2月的一篇专栏文章所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,而并非基于经验和直觉。哈佛大学社会学教授加里金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”

越来越多的政府、企业等机构开始意识到数据正在成为最重要的资产,数据分析能力正在成为核心竞争力。

2012年3月22日,美国政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。美国政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分。未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。2014年5月美国总统办公室提交了“大数据:把握机遇,维护价值”政策报告,强调利用大数据来促进增长、降低风险的重要性。2016年5月白宫又提出了“联邦大数据研发战略计划”,谋划大数据战略的下一步行动方针。

欧盟方面,最近几年主要在四方面持续发力:一是资助大数据领域的研究和创新活动;二是实施开放数据政策;三是促进科研实验成果和数据的使用及再利用;四是整合数据价值链的各个战略要素。

日本政府也十分重视大数据研究与产业发展。矢野经济研究所预测,日本大数据市场规模在2020年将超过1兆日元(约650亿元人民币)。

联合国也在2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。

最为积极的还是众多的IT企业。麦肯锡在一份名为“大数据:下一轮创新、竞争和生产力的前沿”的专题研究报告中提出,“对于企业来说,海量数据的运用将成为未来竞争和增长的基础”,该报告在业界引起广泛反响。麦肯锡的报告发布后,大数据迅速成为计算机行业争相传诵的热门概念,也引起了包括金融界在内的各行各业的高度关注。随着互联网技术的不断发展,数据本身是资产,这一观点在业界已经形成共识。如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。事实上,全球互联网巨头都已意识到了大数据的重要意义,包括谷歌、苹果、惠普、IBM、微软在内的全球IT企业纷纷通过收购大数据相关厂商来实现技术整合,可见其对大数据的重视。

例如,IBM提出,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因大数据分析软件而带来的全新业务增长点。IBM总裁罗睿兰认为:“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”

在国内,阿里巴巴在大数据应用和开发上投入巨资,已经取得了令人瞩目的成绩;百度也致力于开发自己的大数据处理和存储系统;腾讯则提出要开创数据化运营的黄金时期,把整合数据看成未来的关键任务。

总体上,从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了20多年的时间。现在,再也没有人会怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力。但是,即使已经过去了20多年,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化,特别是随着移动互联网的快速发展,大数据从概念到实用、从结构化数据分析到非结构化数据分析,正处于新的高潮和进化阶段。

1.1.2 我国的大数据战略

毫无疑问,在全世界进入以信息产业为主导的新经济发展时期,以大数据为代表的新兴产业将以新经济方式引领新常态,我们国家也必然提出并实施国家大数据发展战略。

“十三五”规划对实施网络强国战略、互联网+行动计划和大数据战略等进行了部署,提出要切实贯彻落实好党的十八届五中全会、“十三五”规划纲要的部署,着力推动互联网和实体经济深度融合发展,以信息流带动技术流、资金流、人才流、物资流,促进资源配置优化,促进全要素生产率提升,为推动创新发展、转变经济发展方式、调整经济结构发挥积极作用。

国务院于2015年8月出台了《促进大数据发展行动纲要》,提出要通过开放、产业和安全“三位一体”建设数据强国。三位一体主要是政府数据开放共享,它是开放的条件;产业是根基,即以推动产业创新发展为根本;安全是保障,要健全数据的安全保障体系。

总体来讲,可以概括为“一个目标,三大内容、十项工程、七大举措”。一个目标,就是全面推进我国大数据发展和应用,加快建设数据强国目标。三大内容是加快政府数据开放共享,推动资源整合,提升治理能力;推动产业创新发展,培育新兴业态,助力经济转型;强化安全保障,提高管理水平,促进健康发展。十项工程包括政府数据资源共享开放工程、国家大数据资源统筹发展工程、政府治理大数据工程、公共服务大数据工程、工业和新兴产业大数据工程、现代农业大数据工程、万众创新大数据工程、大数据关键技术及产品研发与产业化工程、大数据产业支撑能力提升工程、网络和大数据安全保障工程。七大举措是完善组织实施机制、加快法规制度建设、健全市场发展机制、建立标准规范体系、加大财政金融支持、加强专业人才培养、促进国际交流合作。。

同时,国务院还决定建立国家大数据发展和应用的统筹协调机制,通过设立3+X工作机制,由工业和信息化部、国家发展和改革委员会,以及中央网络安全和信息化领导小组办公室(网信办)三个部门牵头,联合其他40个政府部门建立了促进大数据发展的部级联席会议制度。围绕着三个关键的环节精准发力,这三个关键环节是加快数据的开放共享、推动产业的创新发展、科学规范地应用数据。

当前,在大数据产业的发展思路方面,国家强调要以市场为导向,并在四个方面进行探索:一是支持关键技术产品的研发和产业化;二是推动行业大数据应用的不断深化;三是繁荣大数据产业生态;四是完善大数据支撑体系。在关键技术产品的研发和产业化方面,主要是要抓住大数据引领的IT技术的架构和产业变革的机遇,在技术研发、产品体系、服务支撑这三个方面着力;在推动行业大数据应用不断深化方面,主要是大力推动工业和信息通信业大数据应用发展,支持大数据跨行业的融合应用发展,包括公共服务、社会治理、金融、能源、交通和农业等国民经济各个方面;在繁荣大数据产业生态方面,主要是合理规划大数据的基础设施建设,促进大数据的创业创新发展,优化大数据产业的区域布局;在完善大数据支撑体系方面,主要是支持数据交易流通的平台探索,培育大数据开源社区项目,加快大数据标准体系建设,建立大数据统计及评估体系,完善大数据安全保障体系。

大数据贵在落实。国家有关部门近期关于大数据方面的重点工作包括:

(1)支持大数据关键产品的研发和产业化,目前是在三个领域:一是进一步加大支持力度,利用项目资金支持研发和产业化;二是技术产品的研发,例如非结构化的数据处理、大数据管理系统及数据分析、数据安全等关键技术产品的研发和产业化;三是形成一批自主创新、技术先进,满足重大应用需求的产品解决方案。

(2)大力推动工业大数据的应用。在落实互联网+等战略中,将大数据作为抓手,促进大数据与工业融合创新发展;启动智能制造试点示范的2016专项行动,利用相关的项目资金支持工业大数据技术产品的应用示范;加强制造企业与信息服务企业的合作,推进大数据在研发、设计、生产、制造、售后服务等全生命周期的应用,形成工业大数据优秀的解决方案,推动工业大数据与工业云、工业互联网、CPS等协调发展。

(3)支持地方开展大数据产业发展的应用试点。鼓励和支持各地方、各行业、各部门先行先试,开展大数据方面的探索和实践,严格标准,按照成熟一个建设一个的原则,选择有条件、有基础的地方和区域建设大数据综合实验区,鼓励并支持地方结合自身的基础和优势,发展大数据产业,推动大数据产业的集聚发展。

(4)推动大数据的标准体系建设,依托大数据标准化工作组,加快数据质量、数据安全、数据开放共享和交易等标准的研制工作,结合大数据综合实验区和产业集聚区,选择一批关键急需的标准在综合实验区开展应用试点,积极参与国际标准的制定工作,推进标准的国际化,提高我国大数据标准制定的国际话语权。