1.1.3 大数据分析
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。
企业如何从海量数据中获取信息?在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据开始为人类创造更多的价值。大数据分析技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据分析看作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
适用于大数据分析的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
随着云时代的来临,大数据分析常和云计算联系到一起。实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的计算机分配工作。大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构,它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
相较于传统的数据分析,大数据分析技术有效结合了各种信息技术的优势,在技术方面具有规模化、数字化和网络化特点,在服务方面具有自主化、个性化、智能化等特点。其主要特点表现为以下几个方面。
1)数据分析结果具有不确定性。利用大数据技术收集到的信息都是已经存在的相关数据,并对此进行分析,同时还要预测后续的一系列问题,虽然数据分析的准确性相对较高,但是依旧存在着预测不准确的情况,因此应用大数据技术具有不确定性的特点。
2)需要大量用户的参与。大数据下数据处理需要更多的信息支撑,大数据信息、信息服务以及知识体系都需要数据信息的支撑,因此需要用户提供更多的数据信息,这直接影响大数据分析的结果。
3)大数据具有自主性的特点,可以根据用户的需求来提供相应的服务。
4)大数据是一种绿色服务。作为一种与各种先进的信息处理技术相结合的服务体系,从数据资源的提取和处理来看,大数据技术可以看作是绿色服务。
大数据时代,大数据的分析呈现出如下主要趋势。
(1)数据的资源化
资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须提前制订大数据营销战略计划,抢占市场先机。
(2)与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可扩展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者的关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一同助力大数据革命,让大数据营销发挥出更大的影响力。
(3)科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
(4)数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所熟知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
(5)数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个企业都有可能面临数据攻击,无论其是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视如今的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据在创建之初便获得安全保障,而并非在数据保存的最后一个环节。
(6)数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
(7)数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中,要面临的一个挑战是多数据源会带来大量低质量数据。想要成功,企业就需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
(8)数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,即由终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使用者、数据服务提供商、触点服务、数据服务零售商等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分(即市场的细分)、系统机制的调整(即商业模式的创新)、系统结构的调整(即竞争环境的调整)等,从而使得数据生态系统复合化程度逐渐增强。