数据资产(第2版)
上QQ阅读APP看书,第一时间看更新

1.1 界定数据

数据通常可以被分为电子数据和非电子数据两大类。电子数据是指网络空间中存储的数据,是网络空间的唯一存在;非电子数据主要是纸质媒介中的数据,例如传统图书馆里面的数据。由于电子数据和非电子数据无论在规模上还是在流通方式上都存在本质区别,加之“大数据”的含义只是指电子数据,因此,本书在研究讨论数据资产时,将数据界定在电子数据的范畴,而不考虑非电子数据。

1.1.1 名词“数据”的解释

“数据”一词最早出现在拉丁语中,是“给予的事物”的含义,后来随着数学和神学进入英语语言体系[1]。随着经济社会的发展和技术的进步,出现了很多关于数据的不同认识和定义。

·联合国欧洲经济委员会(United Nations Economic Commission for Europe,UNECE)将数据定义为信息的实体表现形式,这一表现形式适用于人类或自动化手段交流、转译或处理[2]

·美国国际空间数据系统咨询委员会(Consultative Committee for Space Data System,CCSDS)给出的数据定义是以适合于交流、解释或加工的形式化方式进行可重新解释的信息表示形式。比特序列、数值表、页面中的字符、讲话录音、月球岩石标本等都是数据[3]

·国际数据管理协会(Data Management Association International,DAMA国际)认为数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现的形式,是信息的原始材料[4]

·曾任国际科学理事会(International Science Council,ISC)信息和数据战略协调委员会(Strategic Coordinating Committee on Information and Data,SCCID)成员的彼得·福克斯(Peter Fox)和瑞·海瑞斯(Ray Harris)认为数据至少包括数字观测、科学监控、传感器数据、元数据、模型输出和场景、定性或观察的行为数据、可视化数据、出于行政或商业目的而收集的统计数据;数据通常被视为研究过程的输入[5]

·2018年美国《开放、公开、电子与必要性政府数据法案》(简称《开放政府数据法案》)将数据定义为以任何形式或介质被记录下来的信息,开放政府数据时特别指明数据需要满足机器可读的条件。

传统意义上的数据是指数值,例如温度为26.6 ℃、长度为100 m等,IT领域将数据概念扩大到符号、字符、日期形式(例如“Asset”“数据资产”“2020/07/31”等),而现在人们谈论的数据更是包括文本、声音、图形、图像和视频等,并且政府文件、出行记录、住宿记录、微博和软件聊天记录、网上购物记录、银行消费记录等也都是数据。

电子数据与非电子数据在规模和处理方式上都有本质区别,以非电子数据的主要形式——纸质数据为例来看看二者的区别。1 PB的电子数据相当于30个国家图书馆截至2017年的藏书总规模,而1 PB规模是大数据领域的一个基础度量。电子数据是通过计算机处理的,而非电子数据是人通过手工或脑力直接处理的。显然,靠一个人力去读完30个图书馆里面的图书是很难完成的事情,但1 PB的数据是大数据技术经常要处理的规模。

从资产方面来看,图书资产和流通已经建立了完整的体系,而数据资产的概念刚刚被建立起来,数据资产的入表、流通还在探索之中,尤其是数据资产的计量计价尚未形成统一技术标准和记账单元。

本书讨论的数据为电子数据。

数据是指网络空间里的所有东西,是网络空间的唯一存在,即电子数据。网络空间的所有数据构成数据界[6]

网络空间是指计算机网络、广电网络、通信网络、物联网、卫星网等所有人造网络和设备构成的空间,这个空间真实存在。计算机、手机、移动硬盘等都是网络空间的组成部分。现在,空调、冰箱、自动窗帘、电子门锁等也已经成为网络空间的组成部分。

如果把网络空间比喻成碗,那么网络空间这个碗里装的是“数据”。网络空间里的任何东西都是数据。

1.1.2 数据的属性

网络空间的数据具备一些特有的属性[6]

(1)物理属性

物理属性是指数据在存储介质中以二进制串的形式存在。数据的物理存在占据了存储介质的物理空间,是数据真实存在的表现,并且是可度量、可处理的。数据的物理存在使数据可以直接被用于制作数据副本、进行数据传输,也可以通过特殊的方法直接从物理存在勘探数据、破解数据。

(2)存在属性

存在属性是指数据以人类可感知(通常为可见、可听)的形式存在。在网络空间中,物理存在的数据可以通过I/O设备以某种形式(如显示、声音)展现出来,被人所感知、所认识。人们通过I/O设备感知到的数据才能被认为是存在的数据,否则只能猜测其存在或不存在。

(3)信息属性

一个数据是否有含义,含义是什么,这是数据的信息属性。通常,数据通过解释之后就会具有含义(即解释清楚数据表示什么),数据的含义就是信息。也有一些数据是没有含义的,例如,一个随意打入的字符串“20 xsaff产7s9f9dsf7w2”就没有含义,但它是数据。

(4)时间属性[1]

时间是自然界中的一个基本要素,其使自然界万物朝着一个不可逆的方向发展前进,人类以此区分过去和未来。数据界中没有时间的概念,数据的存在没有过去和未来。虽然数据的载体会老化,但数据不会老化,可以通过更换存放数据的载体来保证数据一直被存储在网络空间中。

图1-1中4个列分别代表4个数据集,它们以(0,1)二进制代码的形式被存放在存储设备中,占用物理存储空间,体现了数据的物理属性。这4个数据集通过I/O设备分别以表格、文字、图等形式被看见,使人们知道存储空间中存在着4个数据集,体现了数据的存在属性。我们可以通过对这4个数据集的存在属性进行解读来获取信息,这是数据的信息属性。解读数据的信息属性需要具备相应的知识体系、技术能力,解读出来的信息可能会不尽相同,犹如解读甲骨文。

图1-1 4个数据集的属性

·第一个数据集(第一列)。其存在属性和信息属性是相同的,信息较容易获取。

·第二个数据集(第二列)。其存在属性是“铷惈佺ぜ届嘟轲鉯bú偠孒,卧只楆誐亻门啲暧,讠上藦騩漴拝,让兲驶发槑~”。这是一段网络中曾经流行过的“火星文”,如果不掌握“火星文”,那看上去它就是一段乱码。事实上,这段“火星文”表达的信息是“如果全世界都可以不要了,我只要我们的爱,让魔鬼崇拜,让天使发呆~”,这是这个数据的信息属性。

·第三个数据集(第三列)。其存在属性是一个图,看不出是什么内容,需要通过技术进行处理,经过处理后读取出的信息属性是一头大象。这类数据集信息的获取需要通过技术手段,技术手段越高,获取的信息可能就越多。

·第四个数据集(第四列)。其存在属性是一堆无序的字符,无论是通过知识体系还是技术手段,都读取不了任何信息,因为它是一堆乱码,不具有任何含义,不表示任何信息。

1.1.3 数据与物质

数据和物质都是物理存在的,但数据的存在和物质的存在是不同的,主要表现在可标识性、可共享性和生命周期性3个方面[6]

(1)可标识性

自然界中的物质都是可标识的,所谓“相同的两个东西”指的是同质化的两个东西,例如,面对两杯水,可以说“一样的两杯水”;而对于数据,一个数据的存在和两个相同数据的存在是一样的,“两个相同的数据”的说法意义不大,“两个相同的数据”表示自然界的一个事物,即一个数据,一般采用“一个数据的两个副本”的说法。对于数据,通常讨论数据的相似性,而不讨论数据的相同性,相似性由相似性函数定义,可以说“两个相似的数据”。

数据的这种特性说明数据是面向值的,即如果两个数据对象有相同的值,则认为它们是一个对象的两个副本。

(2)可共享性

共享就是指共同分享,在物理世界中主要指某样东西被多个人分。例如“共享午餐”是指共享者一起吃午餐,其实每个共享者吃的东西并不一样,同样的东西是不可能被吃进两个人的肚子里的。

而数据共享的概念有本质上的不同。数据共享是指同样的数据被多个共享者使用,并且每个共享者拥有完全一样的数据,包括数据量、数据形式和数据内容等,即拥有数据的副本。相对于数据生产来说,将一个数据复制任意多个副本是低成本的,因此,数据是可共享的,并且数据拥有者通常愿意将其拥有的数据拿出来共享。

数据的可共享性意味着数据的边际成本很低,能够利用数据副本创造更多的价值。但是,数据的可共享性也可能带来负面效果,例如,因为数据副本的制作相对于数据生产来说非常容易,所以对数据所有权的保护就非常困难,数据的稀缺性也极易受到挑战。

(3)生命周期性

自然界中的物质会老化,有生命周期;而数据不会老化,没有生命周期。数据从其被生产出来到被删除这个过程看起来像是有生命周期的,但其实不是。根据数据的时间属性,一个数据本身是不会随时间的推移而变老、变旧的,例如,将一张照片存放多年以后,只要载体还存在或者不断替换新载体,这个数据对象本身是不会发生变化的,数据不会减少,其质量也不会下降。

数据被生产、存储、修改、删除的过程通常是一个应用系统执行的结果,也可能是现实中对应该数据的事物的生命周期发生变化的数据反应,而不是数据的生命周期。这一点对于数据资产的折旧研究非常重要。

1.1.4 大数据

2012年的全球大数据浪潮,让人们充分认识到了数据的重要性。时至如今,人们已经不再关心数据大或者不大,也不再区分大数据和数据。回顾一下当时的情形,从事大数据相关工作的人群可以被分为3类:有大数据的人群、做大数据的人群和用大数据的人群。那时候大家谈论大数据,实际上是在谈论不同的东西,即有大数据的人在谈论数据资源及其规模,做大数据的人在谈论大数据带来的技术挑战,用大数据的人则在谈论大数据带来的决策变革。

那么,大数据是数据、技术还是应用呢?事实上,数据的价值和挖掘这些价值的时效是大数据的核心内涵。

(1)关于价值

首先,如果一个数据集没有价值,就不需要被关注;其次,如果一个数据集的价值密度高,即大部分数据是有价值的,那么直接读取数据集就能获得价值,没有技术难度。因此,真正的大数据是价值密度低的数据集,从数据集中获取价值像大海捞针一样。大数据是高难的技术挑战。

(2)关于时效

首先,所有的大数据处理和分析都应该在决策期望的时间内做完,如果过了期望的时间,就没有意义了,这是一个技术难题;其次,在竞争中,要比竞争对手更快地完成大数据处理和分析。

这样来看,给定一个大数据,如果没有技术能够在期望的时间内挖掘出其价值,那么大数据是一个技术挑战,否则其就是一个大数据应用。需要注意的是,一个大数据应用可能会转化成大数据的技术挑战。例如,无人驾驶汽车在道路上行驶时,会获取汽车自身的工作数据(行驶速度、油量、引擎工作状态等)、实时路况数据(前车车速、车距、行人等)、道路管理数据(红绿灯、限速等),并及时分析这些数据、及时作出驾驶判断。当汽车时速小于50 km/h时,发现50 m外车道上有行人后,经过2 s的数据分析得出需要刹车的结论是可以接受的;但当车速提高到100 km/h时,数据分析的时间就需要小于1 s。这时,大数据应用变成了大数据技术挑战。

事实上,数据、技术和应用是大数据的3个要素,数据隐含价值,技术发现价值,应用实现价值。大数据是为决策问题提供服务的大数据集、大数据技术和大数据应用的总称。其中,大数据集是指一个决策问题用到的所有可能的数据,通常数据量巨大、来源多样、类型多样;大数据技术是指大数据资源获取、存储管理、挖掘分析、可视展现等技术;大数据应用是指用大数据集和大数据技术来支持决策活动,是新的决策方法[7]

大数据是否能为一个决策问题提供服务,关键在于能否在决策希望的时间内有效完成所有的任务。但是数据增长的速度远远大于技术进步的速度,因此,大数据问题出现了。大数据问题是指不能用当前技术在决策希望的时间内处理分析的数据资源开发利用问题。大数据问题的关键技术挑战在于找到隐含在低价值密度数据资源中的价值,在期望的时间内完成所有的任务[8]

“能否在决策期望的时间内有效完成所有的任务”可能是数据领域存在的持续性问题。尽管现在人们更喜欢用名词“数据”而不是“大数据”,但是问题没有变化,是一样的。


[1]这点是数据资产折旧问题的关键因素,将在第6~7章讨论。