第一节 数字到数据
一、数字的产生及发展
人类发展早期,尚未完全完成从猿到人的转变,日常行为的主要目的是解决生存问题,对于“数”的概念应该是比较模糊和混沌的,但在漫长的社会实践中,出于生产资料的分配需要,开始出现“数”的概念,如捕获一头野兽,就用一块石头表示,这样能够解决整个部落生产资料的简单计算问题,这种简单的计数方式只是一种思维方式的进化,距离数字符号的产生还有很大一段历史距离。但这种计数方式却是人类进化的伟大一步,影响持续至今,直到信息化时代的到来才产生新的飞跃。从古代的刻木计数和结绳计数到公元前510年的陶片放逐法再到现代社会的民意普查、市场调查都离不开这样的计数方式。传说古代波斯王打仗时也常用绳子打结来计算天数。用利器在树皮上或兽皮上刻痕,或用小棍摆在地上计数也都是古人常用的办法,这些办法用得多了,就逐渐形成数的概念和记数的符号。但这种简单的计数方式也存在不少问题,如数字比较大的计算和计数表达利用这种简单的计数方式就显得十分烦琐和复杂,需要创造出新的进位制加以表达。
从现有文字材料看,世界上较早的几个文明国家或地区在公元前就有了比较完整的文字体系,相应地也有了文字计数符号,即数字。例如,公元前3400年左右的古埃及象形数字,公元前2400年左右的巴比伦楔形数字,公元前1600年左右的中国甲骨文数字,公元前500年左右的希腊阿提卡数字,公元前500年左右的中国筹算,公元前300年左右的印度婆罗门数字及年代不详的玛雅数字,等等。根据考古学家提供的证据表明,人类在5万年前就采用了一些进位制方法计数,最早采用的进位制有二进制、三进制、五进制、十进制、二十进制、六十进制等。在人类长期的生产实践中,十进制逐渐取代其他进制,文献资料表明,十进制是中国人发明的,殷商甲骨文中已经使用完整的十进制计数,这种十进制计数法是中国对世界文明的重要贡献。春秋战国时期,中国古人就已经发明了新的计数方法——筹算,它是以筹为工具来计数、列式和进行各种数与式的演算的一种方法,《老子》中就有“善数者不用筹策”的记述,当时算筹已作为专门的计算工具被普遍采用,并且筹的算法已趋成熟。
随着人类文明的进步,复杂的计数方法开始出现,如对一个国家的人口、财政、军事力量等的统计,简单的计数方法已经无法适应社会发展需要,数学符号开始出现。加号(+)是由拉丁文“et”(“和”的意思)演变而来的,减号(−)是从拉丁文“minus”(“减”的意思)演变来的,1489年德国数学家魏德曼在他的著作中首先使用了“+”“−”这两个符号;乘号有两个,一个是“×”,最早是英国数学家奥屈特1631年提出的;另一个乘号是“· ”,最早是英国数学家赫锐奥特首创的;除号“÷”最初是作为减号在欧洲大陆流行,1631年英国数学家奥屈特用“:”表示除或比,也有人用分数线表示比,后来有人把二者结合起来就变成了“÷”。数字与数学符号的聚合构成了完整的计数体系,成为人类最早的理性范畴之一,甚至上升到哲学层面。
公元前6世纪的毕达哥拉斯学派则认为“数”是宇宙之源,认为“万物皆数”,“数是万物的本质”,是“存在由之构成的原则”,而整个宇宙是数及其关系的和谐的体系,企图用数来解释一切。毕达哥拉斯学派关于“数”的思想被柏拉图发扬之后,成为理念论和共相论的源头,并一直支配着随后的欧洲神学思想和哲学思想,这一点在罗素的《西方哲学史》中有专门介绍,毕达哥拉斯学派把“数”与一种特殊形式的神秘主义密切地结合在一起,流传后世,形成唯心主义的基础。由此考察而知,“数”作为一种思维方式自古有之,这点与当前的作为思维方式的“大数据”极其一致。
随着社会的发展和科技的进步,人类迈进了信息时代,如果说农业时代最重要的资源是土地,工业时代最重要的资源是资本,那么信息时代最重要的资源无疑是各种数据。万物皆媒介,媒介即信息,换句话说,万物即信息。任何一种客观存在本身就是一种信息的表达,如一棵树可以表达季节、地理、土地肥沃、时间等多种信息。同样,作为人类的某个个体可以表达出年龄、性别、身高、体重、职业、教育水平、社会地位等各种信息,这些信息中有些是可以通过数字表达的,如年龄、身高、体重等,有些则是不能用数字表达的,如职业、教育水平、社会地位等。信息时代以前,社会对信息的细分程度要求不高,只需要有个轮廓化的描述就可以。随着科技的发展和信息时代的到来,特别是经济学、社会学、物理学、天文学、生物学等各类学科的深度发展,对信息的细分要求越来越高,数字化的描述显然无法满足社会发展的需要,需要新的表达方式来建构时代话语,数据因此孕育而生。
事实上,从人类文明诞生的那一刻起,数据就伴随我们而生——文字、语言、图案、计量方法、生活经验、文化传承等都是由数据构成的。古人的数据表达往往只能借助纸和笔,随着廉价的硅晶半导体的发明,数据表达与传承开始摆脱纸和笔的限制,把大量数据按0或1的二进制方式存储其中。由于存储能力巨大,成本低廉,大量曾被轻易忽略的数据都忠实保存了下来,如每一次购物记录、出行记录、出诊记录、银行流水……数据体量呈现量子级别增长,数据也逐渐开始被数据化了。数据化是在大量数据基础上产生的,为了数据能够被迅速传递、高效管理,通过与互联网技术结合,从而为管理者提供真实有效的科学决策依据。
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。数据与信息之间既有联系也有区别,数据是信息的表现,信息是数据的内涵,二者密不可分。数字作为信息的一部分,与数据则是一种隶属关系,数字是数据的一部分,但数据的意义远超数字的表达。在计算机科学时代,所有的数字都只有1bit的信息量,而文字、图表、画面等信息是远非数字所能表达的,只能借助数据化统一表达规范,如“影视”两个字在UFT8中就是编码十进制数“15056305”和“15247238”,文字在某种数据化规范下转化为数字。
正是在这样的逻辑框架下,人类社会的一切行为都可以被数据化。被输入到计算机并形成被计算机程序处理的符号。一切皆可“量化”,世间万物都可数据化,文字变成数据,方位变成数据,沟通变成数据,可以说我们已经从数字化时代进入了数据化时代,数据成为这个时代的图腾符号。
当然,这里还需要澄清一个概念区别:“数字化”与“数据化”。两者之间既有联系又有区别,两者都是基于“比特”介质之上,但“数字化”指的是把模拟数据转化为0和1的过程,而数据化则是把现象转变为可制表分析的量化形式的过程。为了更好地说明这两者之间的区别,舍恩伯格列举了谷歌图书馆的例子。2004年,谷歌试图把所有版权条例允许的书本内容进行数字化,并发明了能自动翻页的扫描仪,对上百万册书籍进行扫描上网,书本上的内容变成了网络上的数字文本,然而这只是数字化的过程,用户无法通过关键词检索到想要的内容,也无法进行内容分析,谷歌只是把上百万册书籍进行了图像化转化,用户必须阅读才能知道信息内容。因此,谷歌又使用了识别字符的软件来识别图像中的文字内容,这样,数字化图像就转化成数据化文本,用户可以进行关键词检索、内容分析,甚至可以通过对文本的定量分析来揭示人类行为和文化发展趋势。有点类似学术研究过程中收集数字文献的两种不同格式文本:CAJ格式和PDF格式,大多数研究人员应该更偏爱PDF格式文本,因为它可复制、编辑、检索、查询,而CAJ格式文本则只是把原来的期刊内容扫描成图像文本,无法编辑,有时图像还比较模糊或者出现乱码。CAJ格式类似数字化过程,PDF格式则类似数据化过程。因此,舍恩伯格认为:“数字化带来了数据化,但数字化无法取代数据化。”
二、数据的价值
我们所处的这个时代与之前时代最重要的区别就是信息作为一种资源得到价值体现,作为信息载体的数据因而被人们广泛重视。小米总裁雷军认为:“在这30年间,信息极大地释放了人类的能量,它所创造的价值超过了之前5000年的财富总和。”信息论的发展肇始于通信科学的发展,自1837年莫尔斯发明有线电报开始,信息借助于数据通信形式开始即时远程传播。1843年,莫尔斯发送了世界上的第一封电报,电文内容是《圣经》中的一句话:“上帝啊,你创造了何等的奇迹”。到了1948年,贝尔实验室对外宣布他们研发出一种全新的小型电子半导体器件,并且被命名为“晶体管”[transistor,由transconductance(跨导)和varistor(压敏电阻)两个单词合并而成]。贝尔实验室宣称,“它可能将对电子和电信行业产生意义深远的影响”,正是晶体管的出现,引发了电子技术的科学革命。
如果说晶体管的发明为信息革命做好了硬件准备,那么,同一年(1948年),《通信的数学理论》(A mathematical theory of communication)一文的发表则奠定了信息革命的思想基础,这篇论文的作者是贝尔实验室的香农(见图2-1),信息论的创始人,在这篇论文中,香农正式提出“比特”这一术语[Bit, Binary digit(二进制数)二个英文单词的缩写],香农认为“比特是测量信息的单位”,如今这一单位已经成为日常生活最常见的单位之一,香农认为信息和长度、重量这些物理属性一样,是一种可以测量和规范的东西,并借用物理学中“熵”的概念来说明信息,他把信息定义为“用来消除不确定性的东西”。在信息世界,熵越高,能传输的信息越多;熵越低,意味着传输的信息越少。
图2-1 克劳德·艾尔伍德·香农(1916—2001年)
香农的伟大贡献在于对通信研究领域进行了根本的、深刻的革新,重新定义了数据压缩与信息传输的本质问题,为信息社会的建设提供了技术基础,并且把概念化的现象进行量化,使之可以精确测量,正如牛顿把力学量化一样,牛顿之前的“运动”即可以描述天体运动,也可以描述人体运动、树叶落地、动物奔跑等活动,“运动”就跟“信息”一样,是极其模糊的概念,牛顿的运动定律通过energy(能)一词使“运动”在物理学中逐渐清晰起来,香农的“比特”一词使“信息”被人们重新认识。如今,我们的日常生活被“比特”充斥,物质、能量、信息三大元素构成了我们生活的世界,试想,如果没有“比特”,人类的生活是什么样的一种状况?网络无法计费,数据无法传导,互联网可能还没出现就已经消逝。马歇尔·麦克卢汉曾经说过:“人们曾经以采集食物为生,而如今他们要重新以采集信息为生,尽管这件事看起来很不可思议。”如今以数据为载体的信息及信息技术已经渗透到人类生活的各个领域,对各个学科产生巨大而深远的影响。
1952年,香农展示了一只他制造的机械鼠,三个轮子,一根磁铁,以及铜线做成的胡须(见图2-2)。通过胡须,老鼠可以感知是不是碰到了走不通的迷宫墙。迷宫地板背面有一个机械手臂,上面也有一个电磁铁,这样就可以移动机械手臂,带动机械鼠在迷宫里走动。如果老鼠发现正对的墙走不通,就会退回格子中间,旋转90°,去尝试下一个方向,然后继续行走,直到走到终点。甚至在调整中间隔板位置的情况下,老鼠也会重新调整路线,最终走到终点。这只老鼠实际上是一个初级智能系统,香农用50个继电器控制机械手臂的移动,又用75个继电器记录老鼠探索的每面墙能否走通,从而通过继电器记录路径状态。老鼠仅仅通过掌握这些继电器的开与关的数据就拥有了部分智能,这其中仅仅利用数据记忆,还没有涉及数据处理。通过这个例子,我们可以看到,数据意味着不确定性的消除,本质上,数据就是信息,这就是数据的价值所在。
图2-2 香农的机械鼠
三、数据的特点
尼葛洛庞帝在《数字化生存》中写道:“要了解‘数字化生存’的价值和影响,最好的办法就是思考‘比特’和‘原子’的差异。”由于信息与数据之间的关系如此紧密,所以我们有必要了解数据的特点。
(1)一致性。由于数据采用电子设备存储,保持一定的物理独立性,当进行人工管理或文件系统管理时,除非人为修改,否则无论被复制多少次,其原始数据与最后一次复制的数据应该是一致的,这一过程避免了人工干扰和时间、气候等自然环境对数据的物理破坏。例如,一本书放在自然环境下,由于受到氧化、风化、潮湿、霉变等多种因素影响,其保存期限最多几百年,但只要承载数据的设备没有被破坏,数据保存的期限理论上可以无穷尽,以“比特”为载体的信息传递比以“原子”为单位的信息传递更为久远,且数据不会受到干扰。
(2)可挖掘性。互联网时代也是一个信息爆炸的时代,信息呈现海量、碎片化特征,我们接触到的信息往往只是表面化的东西,并且不同视角也会得出不同结论,但把大量的数据集合一起,再进行相应的数据分析,就可以挖掘出深层次的内容。所谓数据的可挖掘性就是要把隐没在一大批看似杂乱无章的数据中的信息集中、萃取和提炼出来,以找出研究对象的内在规律。例如,印度的一个人工智能系统MogIA对美国总统选举的预测。早在2016年10月,MogIA就预测特朗普将取胜,此前它已经连续成功预测了三次美国大选。MogIA的预测系统基于从谷歌、Facebook、Twitter、YouTube等收集的2000万个数据源,包括视频、音频、图像、文字在内的多维数据,对所有数据进行分析后,对样本进行画像,利用大数据技术对数据进行建模,确定其支持态度。虽然MogIA也有缺陷,如不能正确识别抓取社交媒体数据中的正面与负面含义。如果有人在社交网站上提到了“Trump”,AI无法识别出说话者是支持还是反对。每个民意调查都会有偏差,有些源自数据噪声,有的则源自无应答误差,但只要数据足够多,通过一定的容错机制和筛选机制就可以修正这样的缺陷。传统媒体民意调查的样本量有限,而且样本具有偏向性,对于选民之间的互动无法用数据呈现,而社交网络可以真实反映人的态度,因此可以通过数据挖掘技术做出正确的预测。
(3)可重复使用。在一定授权范围内,数据本身具有共享功能,加上数据保存的一致性,无论是共时数据还是历时数据都可以无限次地被提取、分析,如有人研究女性主义,收集中央电视台女性节目《半边天》从开播到停播的所有视频资料,并加以分析,以探讨女性的主体意识的觉醒;有人研究社会转型期的妇女生活状态也收集《半边天》的所有视频资料;还有研究妇女参与政治生活的变化也收集了同样的资料。事实上,在信息时代下,数据不仅仅只面向某个应用而是面向整个社会系统。
(4)分散性。数据的分散性具体表现在两个方面。一方面,数据的产生没有固定发生地,收视数据的产生来源于不同地理区域的不同受众,营销数据的产生来源于多个零售终端不同群体。因此,需要多渠道采集数据,除了网络、图书馆,还要关注广播、电视、杂志等媒体的信息,关注统计局、行业协会、研究机构、独立第三方的数据。另一方面,数据零散分布,必须集合起来并且相互关联才能提取数据价值,数据是零散的、碎片化的,要真正还原数据的完整性,必须努力寻找数据关联性。例如,央视-索福瑞(CSM)拥有世界上最大的广播电视受众调查网络,覆盖5.91万余户样本家庭,电视收视率调查网络所提供的数据可推及中国内地超过12.8亿和香港地区640万的电视人口,广播收听率调查的数据则可推及中国超过1.43亿的广播人口。
(5)时效性。数据即信息,虽然信息价值的大小与时效的高低并无直接关系,但在科技日新月异的时代下,工作生活节奏明显加快,往往很多行业和领域要求信息的时效性。投资行业需要根据市场上的数据快速分析出结果,电视节目需要根据收视率即时做出调整,城市交通、医疗资源需要根据数据迅速做出配置……如流感的暴发,在缺乏医疗数据的时期,只能在暴发后根据诊疗人数做出判断,但这时流感已经暴发,政府能做的只能是防止疫情的进一步扩散。但现在利用数据采集系统可以通过互联网判断疫情暴发的可能——人们在有流感症状的时候往往并不是直接去医院,可以通过引擎搜索“如何治疗感冒”“感冒了怎么办”等关键词,如果在某个时间段搜索此类关键词的人比较多,意味着政府应该采取措施重视起来了。谷歌浏览器有一个“浏览趋势”功能,根据“关键字段跟踪”就可判断某种现象的发展趋势,与之类似的是百度的“热搜”。
(6)数据冗余。数据冗余度指同一数据重复存储时的重复程度,数据冗余会妨碍数据库中数据的完整性,也会造成存储空间的浪费。信息爆炸给我们带来两个后果,其一是有效信息增加,其二是冗余信息也随之增加。如今,在网上随便搜索一个关键字,检索而来的大部分是冗余信息,这部分冗余信息的产生很大程度上是数据冗余导致的。尽量降低数据冗余度才能更快更有效地提取数据价值。
正如尼葛洛庞帝所言:“比特没有颜色、尺寸或重量,能以光速传播。它就好比人体内的DNA一样,是信息的最小单位。比特是一种存在的状态,开或关,真或伪,上或下,入或出,黑或白。出于实用目的,我们把比特想成‘1’或‘0'。”当今世界的发展正如他20年前预言的那样:比特取代原子成为信息的基因。