●○●数据的由来——从三千年前说起
人类是社会性动物,会思想,会表达,会学习,会互动。虽然越来越多的证据表明,这些能力不是唯一属于人类的,动物界还有许多种动物具有这些能力,但人类无疑是能力最高的。
虽然无法从考古材料中确凿地证明,但人类最初在发明语言和文字之前,一定是通过肢体动作、表情和声音表达自己的思想、情绪和愿望的,这从对其他灵长类动物的研究中得到了充分的证明。一个人的动作、表情和声音要想让另一个人明白其含义,不是简单的事,恐怕要经过漫长、反复试错的过程,才能让人们取得共识,让某一个动作、表情或声音表达一种确定的含义。一旦含义确定,就会成为一群人共同的精神财富,并代际相传。
我们今天所能见到的人类的思想情感表达的最初形式是数千年前,甚至数万年前人类刻画的岩画(有考古发现说有2万~3万年前的岩画,但还未有足够多的例证)。我曾在埃及、土耳其、伊朗、阿塞拜疆、法国、美国等地的古迹中见到许多新石器时期的岩画,中国各地也都有岩画遗存。这些岩画共同的主题都是人、动物、植物、山水和日月星辰,以及某些无法识别的符号类标志。岩画主题主要是种植、战争、欢庆和生活。我所见过的最壮观的地画(也该算岩画的一种)应该算秘鲁纳斯卡地画了,是三千多年前的人类用碎石堆放而成,地画的直径至少几十米,大到数百米,只有乘飞机在数百米高空才能看明白地画的形状。
大约经过数千年甚至上万年的努力,人类的思想表达从岩画发展到木制品、金属制品、动物制品等,表达内容也从简单到复杂、具体到抽象,从自我或家族部落欣赏到进行权力表达或成为用来交换的商品。今天,有考古证据证明,至少在五千多年前,人类开始创造出文字并以石头、植物纤维、动物骨头等材料为依托,刻画留存至今。无论两河流域、埃及、希腊还是中国的古文字,主要是用来记载帝国兴衰、天灾人祸、祭祀占术以及国家律法的。这些文字多发现于古代王宫和相关的建筑遗址内。
自从文字发明后,就成为人类文明记录、传承和传播的主要工具。随着社会的发展,文字开始用于文化、思想、历史、发明和行为规范等方面。在早期,学习文字、拥有文字和使用文字是极少数人的事情,他们多属于权贵圈、宗教界和为这两种人服务的“知识分子”。识字的人很少,因为掌握文字的成本极高,需要富有家庭的长期投入。记录文字很难,因为能够留存的文字不是书写,而是刻画。保存文字不容易,要有房屋,有院落,甚至要有警卫。这就需要财富,需要不用劳动的人,需要专门教授文字和学习文字的人,更需要使用文字的人。于是,一个学字、识字、用字的社会阶层出现了,那就是社会精英阶层,也就是社会统治阶层及其附庸者。事实上,直到工业革命初期,世界各国无一例外地识字率都极低,不到10%,文盲占90%以上。中国直到20世纪50年代初,扫盲仍然是个大任务,文盲占总人口的80%以上。农业社会低下的劳动生产率决定了没有多少社会财富可以用来让人读书识字,交通不便、社会流动率低、商品交换不发达决定了文字需求不多,只有统治者和精英阶层需要。
人类文字发展史上有几个重要的里程碑。第一个是拼音文字的出现。文字刚出现的时候都是象形文字,渐渐地有些难以找到相应物体形状的抽象概念无法准确表达,只好用比较抽象的形状代替。慢慢地,一些形状逐渐固定,形状数量逐渐减少,文字不再与所指物体相对应,而是与文字的发音关联起来。一个原始的文字加上前缀后缀以及变形又生成更多的词汇,使人们可以进行更复杂和更准确的思想表达和交流。在黎巴嫩首都贝鲁特附近的古堡中,我见到了遗存至今最古老并基本定形的字母表,一共二十三个字母,镶刻在三千多年前一位国王的棺材上,据说正是这位国王在确定字母表并加以推广上起到了决定性的历史作用。今天所有的拼音文字都是这个字母表的延伸、变化和改进,而象形文字只有中文还在大规模地使用和发展。
第二个里程碑是纸张的发明与普及。早期的文字保留在天然获取物上,例如石头、兽皮、兽骨和木头等,这存在获取不易、书写不易、保存不易、流传不易的问题。接着人类把文字保留在人工制品上,例如铜铁制品、丝麻制品、竹木制品等,这又存在产量低、成本高的问题。埃及的莎草纸(可以归为麻制品一类)虽然历史悠久,但由于原料只在尼罗河两岸生长,所以不能广为流传。只有基于纸浆或木浆造纸的技术发明后,文字才有了大规模普及与流传的基础。
第三个里程碑是印刷术的发明与发展。在文字出现后的两三千年里,文字的传播基本上是靠手抄。在欧洲和中东地区,宗教界是文字传播的主要力量。在中国,直到宋代,手抄仍然是文字传播的主渠道。渐渐地,石板印刷、雕版印刷被发明出来,但其仍然属于小众传播的技术。直到活字印刷,特别是印刷机的发明出现以后,书籍才成为大众可望而可及的东西,不再是极少数贵族的独占品。海德堡印刷机的问世,使得海量印刷成为可能,促进了以报纸为代表的大众传播的出现。以文字与纸张相结合、以书籍报刊为主要形式的知识与资讯传播是人类社会得以发展前进的主要手段之一。
文字的缺点是显而易见的。首先,文字只有一种表达方式,无法将人们的声音、动作、表情等完整地表现出来。其次,文字有太多的存在形式,今天世界上仍然被使用的文字有数百种之多,任何一个事物都有数百种文字表达方式,这使得文字的传播成本高昂,传播效率不高。第三,文字的学习掌握需要漫长的过程,花费不菲的代价,即使经过十来年的努力,能够很好掌握文字表达技巧的人在社会上仍是少数。第四,文字的表达能力有局限性,对很多自然现象和社会现象只能描述,很难精确定义。
与文字差不多同时诞生的是另一个表达体系,那就是数字。数字当然是文字的一部分,但是相对独立,自成一格。世界各地古文字中都有自己的数字符号,但进展不一。例如零的发现,印度最早,其他文字则要晚得多。时至今日,全球普遍采用阿拉伯数字体系,但伊朗仍坚持使用古代波斯语中的数字符号,使得我们这些外人在那里旅游时看不懂钞票的面值。与一般文字相比,数字的好处是精确定义,毫无歧义。架构在数字之上的数学则是人类思想中最缜密、最有逻辑、最有使用价值的一部分,整个科学体系完全依赖数学的发展,而不能使用数学的思想则不属于科学。
夹在文字与数字之间的是一种特别的东西。开始它是被文字表达,但却有精确、客观、无歧义的特征,多用来表达世上客观存在的东西或已经发生的事实。在古拉丁文中,这个东西被称为Datum,其复数形式为Data,后来在英文中普遍使用为Data,意思是“to give”和“givens”,指的是内涵确定、定义明确、毫无歧义的东西。在中文中Data被翻译成“数据”,的确是个不错的翻译,有“数字化的根据”的意思。
例如,“日”这个中文词,两个最普遍使用的意思是指天上的太阳和时间上的一天。如果能精确说明“日”是太阳系的中心,“天”是地球自转一周的时间,那么“日”就从普通的文字变成了数据。圆周率是文字,3.1416则是数据,尽管内涵是一样的。要想精确定义一个事物,或者说一个事物被定义的精确度,随着人类对世界的认识发展,越来越依赖数字化定义。哪个领域被研究认识的东西被数量化定义之后,它就变成了科学的对象,也就可以更多、更深、更快地被人类所利用。
数字与数据不是一回事。数字是普适性的概念,是对一切事物的数量性质的表达。数据则是具体性的概念,是对一个事物的数量性质的表达。“8848米”是一个数字,没有任何具体内容,只是一个长度的数量表达。“珠穆朗玛峰海拔8848米”是一个数据,特指世界最高峰的高度。“珠穆朗玛峰是世界最高峰”是一个文字表达,具体但不准确。所以,文字是人类对世界认识的一种抽象表述,数据是比文字更高一层的抽象表述,数字则是最高层次的抽象表述。
对一个事物可以有多种数据表述形式,取决于人们的目的和认识程度。例如,中国人口为13.6亿是人口数量的数据,中国人口中54%为男性、46%为女性是性别比例数据,中国人口平均受教育程度为9年是教育数据等。对一个事物的数据表述越多,对这个事物的定义越精准,人们对这个事物的认识就越深入,可利用程度就越高。
数据是个高难度的东西。看到一个东西用文字可以模模糊糊地去描述,用头脑可以似是而非地去思索,但是要用一组数字去准确定义这个东西则是非常困难的事。可以说,人类历史在一定意义上就是对外部世界、对内心世界、对人与人的关系从无知到有知,从模模糊糊地知到比较确切地知,然后逐渐开始加以利用的历史。所以,数据在很长的时间里,甚至直到第二次世界大战前,只在非常狭窄的领域,例如数学、统计学、物理、化学、经济学等领域里得到比较充分的利用。在其他领域,例如政治学、社会学、历史学等领域,则很难得到足够的数据去利用,更不用说人际互动、文化现象、心理活动这些更复杂的现象了。直到不久前,甚至即使时至今日,数据这个概念对专业人士以外的绝大多数人来说,仍然是个冷僻、生疏、似乎远隔万里的东西。