1.2 大数据的科学性
开玩笑地讲,对于龙的传人,我们应该很熟悉云,因为龙总是出没在云端;而人类生下来就有10根手指,所以人人都会数数。因此,“云计算”和“大数据”才会这么火,成为街谈巷议的话题。
玩笑归玩笑,但是,应当以怎样的态度来研究和阐述大数据,是非常重要的。往较深层次说,大数据是用来帮助人类进行求知活动的,那就涉及是否应当将大数据纳入“科学”的范围,并以科学研究的态度来开展大数据的研究。当然,理应注重大数据作为科学的方面,从方法论的角度来解读大数据。
人类之所以配称为万物之灵,主要是因为人类相比其他动物会求知,从求知活动中获取经验,总结为知识,世代相传,累积为文化,并以之作为利器,战胜万物,终而主宰这个世界。纵观人类有史以来的求知活动,大致不外乎两个目的:第一,由了解适应其所居住的环境起,进而企图改变控制其外在的物质世界,从而获得生存的安全与舒适;第二,由了解自身以及同他人的关系起,进而企图化解困惑与冲突,改变其内在精神世界,从而获得生活的意义与价值。数千年来人类求知活动的结果,在第一目的之下发展了各种科学与技术;在第二目的之下,发展了不同的哲学与宗教。而大数据这一学科(或者称为技术),则受了科学理念的影响,它是从人类目前的数学、数据科学等现有学科中综合出来的,一门关于大规模数据之间联系的挖掘问题的新科学知识。比较两个目的下人类求知活动的结果,显而易见的是,科学技术对人类物质生活的贡献,和哲学宗教对人类精神生活的帮助是同样重要的。
“大数据”这个名称常被人误解。被人误解的原因,主要是对大数据的阐释上很容易让人误解为IT的新瓶装旧酒,因为其涵盖的技术内容实际上是已经被长期发展的各类技术,而大数据这一名词则是将这些技术进行综合后冠以的一个新词,并且该词具有一定的迷惑性,容易使人望文生义,而不能参透这三个字背后的确切涵义。本书讨论大数据,首先想探讨的一点是“大数据”是否配称为“科学”这一个问题。
要解决“大数据”是否配称为“科学”,首先要澄清的一个最基本概念就是:何谓科学(Science)?按一般辞典或辞源的解释,广而言之,凡有组织有系统的知识,均称之为科学;狭而言之,则专指自然科学。这是一种通俗的解释法,这种解释存在两个缺点。第一,只以“组织”和“系统”两个特征来显示知识的科学性是不够的。电话簿与成语辞典都是有组织有系统的知识,试问这两种出版物算不算是科学?只能说编制电话簿的方法是科学的,但不能说电话簿本身就是科学。第二,单以知识的性质为评定标准也是不够的。一般人总把物理、化学、生物学等视为科学的代表,其实这类科目之所以配称之为科学的原因,绝非单指其知识的性质,更重要的是,这类科目都采用了科学方法。
科学一词究竟如何解释?以下的定义是最清楚的:科学是运用系统的方法处理问题,从而发现事实变化的真相,进而探求其原理原则的学问。这一定义中包括了三个要素:①问题,②方法,③目的。任何一种科学的产生,都是起于有待解决的问题,而且问题表现于外在的事实或现象,变化不定。天有风雷雨电之变,产生了气象学;人有生老病死之变,产生了医学。问题是多变的,要解决某种问题,自然需要适于问题的方法。在定义中所强调的“系统的方法”,当属此意。而这一定义中所指的科学目的,显然包括了发现事实变化真相和探求事实变化中的原理原则这两个层次。
基于以上对科学定义的分析,大致可以对“科学”一词得到如下的认识:有待解决的问题只是科学研究的对象,其本身并不代表科学,只有科学的方法以及采用该方法所要达到的目的,才真正符合科学的涵义。接下来将根据这一认识,来解答“大数据配称为科学吗?”这一问题。
回答之前,对科学的特征与科学的目的,需要做必要的补充说明。前文曾指出,一种知识是否配称为科学,其关键不在于知识本身的性质,也不在于知识组织的形式,而是在于探求知识或解决问题时所采用的方法。当然,方法只是解决问题的手段,手段如何选择,还要看所要预定达成的目的。因此,有必要再把科学方法所表现的科学特征,以及科学研究者所期望达到的目的,分别说明如下:
先看科学的特征。科学的特征主要是由科学方法表现出来的,主要表现在解决问题时所采用的工具、实施的程序、资料分析以及结果呈现这四大方面的处理上。就此四大方面中的每一个的性质来看,均具有以下三点特征。
① 客观性(Objectivity):客观性是指不因人而变,或随意而变的科学特征。在科学家从事研究以解决问题时,无论在使用测量工具、工作程序、从事资料分析以及呈现研究结果等的各个方面,均须按一定的准则处理,这就是客观。换言之,客观即不能凭研究者个人主观意见来改变既定准则,不能按研究者个人好恶随意曲解事实。
② 验证性(Verifiability):验证性是指科学研究的结果,或根据研究所建立的科学理论,其真实性如何,是否可以验证。验证性与客观性具有连带关系,必得先有客观性,而后别人才有可能按其客观准则,重复研究该问题,从而对原始研究予以验证。
③ 系统性(Systematization):系统性是指科学研究必须遵循一定的程序。所谓一定的程序,有的按时间为先后,有的按空间为标准。科学研究上系统性的表现,多半体现在数据上。数据是系统观察的记录,是表示客观性的标准,也是用作验证的根据。
科学研究的短期目的是解决问题,而长期目的则是发现事实真相并探求事实变化的原理原则,在短期与长期目的之间,科学的目的又可分为以下四个层次。
① 陈述(Description):陈述的目的是将研究问题时所获知的表面事实,客观地用口头或文字描述出来。它只求事实的真实性,不涉及问题发生的原因。例如:一年十二个月中,某地各月份发生火灾的次数以及各月份火灾伤亡人数的统计资料。这种资料的作用即在于陈述。
② 解释(Explanation):解释的目的是将问题发生的前因后果分析清楚。解释是以陈述的事实为根据,进一步分析形成问题的原因。当然,形成问题的原因未必只是单一的因果关系,会有多种因素形成同一结果的情况,也会有相关因素互为因果的情况。以陈述目的中所引的某地各月份的火灾统计为例,如资料显示每年一二月间的火灾次数上升,那么研究者在分析原因时,就可能将之解释为与季节和民众的过年习俗两大因素有关,一二月是冬天,电热器的使用率增加,可能是原因之一;一二月适逢农历春节,民众烹调时会用较多的燃具,并且过节期间会燃放烟花爆竹等,这些都是更易引起火灾的可能原因。
③ 预测(Prediction):预测的目的是只根据现有的资料,去推测将来发生问题的可能性。对某些因果关系明确的问题,根据以往多次问题发生后所得的因果关系资料,去预测未来同类问题发生的可能,是相当可靠的。再以前述各月份火灾次数为例,如连续累积十年资料,将十年间每个月份的火灾次数相加,而后求平均数,即可用以预测次年各月份的火灾发生的可能次数。
④ 控制(Control):控制的目的是指设法控制问题发生的原因,避免问题的发生或将可能发生问题的严重性减少到最低限度,例如:人类的疾病是无法完全避免的,人类的死亡也是不可避免的。医药科学的研究,虽无法达到使人永不生病或长生不老的目的,但也确实由于了解了某些疾病的病因,而控制了疾病发生的可能。例如预防注射,就具有明确的控制功能。
从以上有关科学问题概念的讨论,不难认识到,一种知识是否配称为科学,与该知识本身的性质并无必然关系;自然界的变化,大如星球运转,小如花开花落,只要提取知识时所采用的方法与研究的目的符合于科学,那就是科学;人世间的变化,大如生老病死,小如儿童尿床,只要提取知识时所采用的方法与研究的目的符合于科学,自然也都是科学。因此,谈科学问题时,绝不能存有偏见,不能将研究物的基础科学(如物理、化学、生物学等),看得比应用科学(如数据科学、人文科学等)的层次髙,否则,势必将影响后者的发展。
以物理学与大数据这两门学科的研究做比较,物理学所研究的是物性的变化,大数据所研究的是数据之间的联系及数据的变化趋势。两者的目的,同样旨在探求变化的原理,使得以后面对类似的情形时能事先预测与控制,使其变化的方向较为有利。不过,物理学与大数据至少有以下几点不同。
① 物理的特征是外显的,大数据的特征除少部分外显之外,很多是内蕴的,根据个别物性的外显特征,去解释一般的物理特性,相对比较容易,而根据个体数据的外显特征,去解释整个数据体现出的性质,则较为困难。
② 物理性质的变异较少,个体自身的变化遵循自然规律,群体之内的每个个体之间,同质性较髙,个别差异较小。根据个体的物理性质而推论群体物理性质的方法,相对比较容易。数据的变异极大,除个体自身多变之外,个体之间的差异尤其大。根据个体数据而推论群体数据性质的方法,相当困难。
③ 对物理特性的测量,较易采用结构化数据的量化方式处理,而且容易做到客观与可验证的标准。一张桌面的长度,今天测量,明天测量,张三测量,李四测量,所得结果,大致相似,原因是测量工具是客观的,桌面本身的物性特征,也是外显而客观的。对大数据的测量就不同,由于存在大量的非结构化数据,这些数据有时很难进行量化处理,并且对这些数据采用不同的处理方法会带来差异很大的处理结果,很多时候对数据的处理无法做到全面和客观,因此,对大数据的处理就成为了难题。
④ 对测量所得到的资料的处理方式存在差异。凡对物理特征测量所得到的资料,只需按“客观的客观化”原则处理即可,所得结果即可对一般的物理现象进行推论解释,将结论推广应用以解决同类问题。而对规模巨大且异构的大数据资料,则必须按“主观的客观化”原则处理,处理方法上要充分考虑到各种因素,寻找到最优的处理法,使得结果尽可能贴近客观事实。
基于以上讨论,对“大数据配称为科学吗?”的问题,我们就可以得到三点认识:①一门学科是否配称为科学,取决于是否采用科学方法来从事研究。大数据所采用的科学方法,其周密性并不逊于一般自然科学。②大数据是整个科学史中发展较晚的一门科学(虽然其中包含的很多内容是传统的科学内容,但以一个整体形式出现的大数据,是比较晚的),与其他科学相比(如物理、化学、生物学等),大数据尚未到达成熟阶段,这一现象并不表示大数据不够科学,只是因为与研究物性的其他科学相比,大数据有其独特的难度和研究深度,因而给大数据从业者们带来了非常大的挑战。③从科学研究的价值来看,大数据所研究的问题,具有普适性,有助于改善人们的生活。
综上所述,既然大数据有资格被称为科学,就有必要讨论一下研究这门科学的目的。无论是哪一门科学,从它的研究目的看,大致都可分为理论与应用两种目的。大数据同样既包含理论,又是和应用紧密相关的。科学家们从事纯理论的研究者,旨在发现事物变化的真相,探求原理原则,用以建立系统理论,以供后人据以解释、预测或作为继续研究同类问题的基础。纯理论科学的研究,通常根据两个基本假设:其一,宇宙万物间事象的变化,各有其自身的秩序与规律;其二,秩序与规律的背后,存在着某种原理原则,而从事科学研究的基本目的,就是要寻找其中的原理原则。
科学研究的理论性目的,适用于自然科学对物性的研究,也适用于大数据对大规模异构数据的研究。大数据的理论研究,其目的在于探究数据之间的内在联系,数据的变化规律以及演进历程等。在数据情况复杂的场景下,对数据所蕴藏的真正价值,多数是知其然而不知其所以然的,以“知其然”为基础,进而探究数据背后“所以然”的原理原则,正是大数据理论研究的目的。
举例而言,大数据研究中的一个重要课题是研究如何让机器学习人类的语言行为,人类有一套复杂而又有系统的语言行为,即使在科学非常进步的今天,科学家仍未揭开人类语言行为形成的神秘原因。因为从语言发展的历程看,该行为是自出生即开始自动学习的,并且就知觉行为而言,凡是感觉正常的人,可以不学就能辨别声音、颜色、物体、人物、形状等。但是人的感官作用又与机械不同,其对于刺激的存在,可以激发包括语言能力在内的一系列强化反映及对信息的关联,并且人类可能做到视而不见、听而不闻,其视觉与听觉的作用可以异于照相机和录音机。再举一例,大数据科学,尤其是其中的人工智能科学家一直都希望能让机器学会人类的求知过程,求知活动是人类行为的一大特征,求知行为的背后有两个构成要件,一个是求知能力,一个是求知方法,对这两个要件的来源,迄今尚无肯定答案,就人类一生的发展而言,自出生到老死的变化,有和一般生物的生命周期相同的地方,也有差异之处,其原因是除生物性的客观决定因素之外,另外还有文化性的主观决定因素,并且文化因素又会随着时代演进而变化,要模拟出类似人类的求知方法和能力,并让这个求知过程会随着文化而有演进变化,是极其复杂困难的。为了启发读者,本书中所讨论的内容将会涉及大数据理论的多个方面。
大数据除理论研究外,更重要的在于应用的研究。从历史来看,大数据这个名词的出现,也源自于应用。事实上绝大部分的大数据理论知识并不是什么新鲜的理论,例如其中的统计学等都是长期发展的成熟理论,即使是人工智能也是发展于20世纪50年代,之所以这些理论现在被冠以大数据的名号,是因为随着当今计算能力以及数据规模的增加,有了对大数据处理的应用需求。
当前对大数据应用的研究目的是:根据大数据理论和工具提供的大数据处理方法,建立符合应用场景的数据处理模型,选定对象、设计方法、控制因素等,以进行数据分析、治理、挖掘、验证性的应用,并且从应用中得到实用性的原理原则,然后将其推论到同类情境中去应用,以解决实际问题。
大数据技术所蕴含的真正有意义的数据处理过程如图1-4所示:获得的大量原始数据首先需要通过预处理,例如数据的清洗、集成、变换等,才能称之为信息,到信息这一步,所有数据还是相对分散孤立的,此后需要通过体系化处理以及抽象,揭示并清楚地描述出数据之间的关系,由此信息才能转化为经验,继而总结成为具有普遍意义的知识,到这一步,数据还尚未发挥出其价值,只有将获得的知识付诸到实施中,真正帮助决策活动,才算是体现出了大数据的价值,这种应用结果的优劣,进一步反馈到前一轮中,形成一个闭环,最终结晶成了智慧和文化。因此,知识本身并不是力量,只有将知识付诸于决策行动,才是力量。
图1-4 大数据意义下的数据处理过程
举例来讲,一个个的汉字和数字就可以被视为是数据,但是可以认为:离开了上下文的汉字和数字是没有意义的。大数据就是对数据进行分析用于求知的过程,而在求知过程中,“Practice Makes Perfect”这句话并不合适,应该说,只有正确的Practice才能Makes Perfect,而研究大数据正是要研究怎样开展正确的Practice。
说到正确的Practice,其实和大数据最为密切的一项Practice技术非统计学莫属。统计学以一定的样本为分析基础,而大数据则可以认为是在更大样本集的情况下的分析手段。一定意义上讲,大数据应用之广可能使其成为高于统计学的一门综合性科学。关于数据的学问,很多都在统计学里。在经典统计学中,对于数据性质的研究、误差的分析、数据质量的判断、数据模型的建立,有着非常丰富的思想、理论和经验成果。对于大数据及其机器学习来说,统计学既是理论基础,又是思想宝库。但是现实世界中,机器学习的实践者大多出身计算机科学,除了本科学的那一点工科概率论与数理统计,对于统计学,基本上是“随用随学,够用为止”,因此统计学当中大量的思想资源实际上是被闲置的。事实上,无论是做人工智能,还是做商业数据分析,如果能够对统计学有系统的理解,那么,对于机器学习的研究和应用便会如虎添翼。
比如说回归,一般回归书上大部分篇幅写的都是近百年前的线性最小二乘回归,但在最近十几年中就发展了大量基于算法的新回归方法,比如基于决策树的有随机森林、Bagging、Boosting,还有支持向量机及较早就发展的神经网络等,它们都能够做回归,往往都比线性最小二乘回归强大,但实践者必须要挑一个最好的,所以就需要把这些数据拿过来做交叉验证,要让数据自己来说话,来确定哪个模型好。而经典统计上确定模型的优劣方法严重依赖于对数据的众多数学假定。有计算机之前,由数学家发展的经典统计引入了大量的数学假定来弥补数据信息和处理能力的不足,这就给统计打上了很深的数学烙印,并且导致了很多统计学家的模型驱动的思维方式。在计算技术飞速发展以及数据膨胀的新时代,这种模型驱动的思维方式可能就需要改进。机器学习是典型的数据驱动的思维方式,它从数据出发,通过各种计算方法来理解数据,并建立适当的算法模型来拟合数据并得到结论,这恰恰反映出机器学习能反过来改造统计学,机器学习的思维方式就是科学的思维方式。对于整个统计学界存在的问题,把统计学从数学假定主导的思维方式改造过来,从模型驱动改变成数据驱动或问题驱动,就可能获得解决。