1.4 从PC时代的数据库,过渡到云时代的信息中枢
近年来,业界普遍意识到数据挖掘技术是对未来人类产生重大影响的新兴技术之一。由于计算机和数据库的广泛应用,日益膨胀的数据量导致了“数据丰富而信息贫乏”的现象,数据挖掘技术以一种全新的概念,改变人类利用数据的方式,可望开发出大容量数据的利用价值。但是,现阶段数据挖掘技术面临许多“鸿沟”,主要是:应付多源异构数据和数据库、应付海量数据的效率和运算力、应付数据规格化和大规模协同作业、挖掘结果的可用性和表达能力以及数据安全和隐私等。这些鸿沟制约了数据挖掘的广泛应用。本书就是在这样的背景条件下,提出了一套切实可行的信息中枢整体解决方案。
在个人电脑时代,我们发明一种工具,称为数据库软件,用于完成数据处理任务,使得不懂计算机的人也可以完成数据采集和查询。过去30年来,互联网上的应用网站基本上沿用客户端/服务器(C/S)的数据库操作模式。数据库的内容以数据和文字为主,仅仅从存储器中查询历史记录,目标是获取信息。对所有用户统一编排,封闭式操作。随着网站规模扩大,常见的方法是,用高性能服务器集群取代单一电脑,即硬件解构,继续保留单一的数据库应用软件。这一模式成功运作了30年。实际上,当前不论哪家数据库软件,其核心无非是三要素“建表”、“建索引”和“建关联”。本书认为,数据库软件不是目的,只是手段。数据库把用户功能限制在一套软件中,该软件又把用户规模限制在一套计算机硬件中。当用户需求的功能和规模猛增,就引发了复杂的软件和硬件结构,成为发展瓶颈。本书从结构上打破这种软硬件限制,用信息中枢取代传统数据库软件,让开发者直接面对原始信息,在不增加软硬件复杂度的前提下,无限扩展信息中枢的功能和规模。
1.为什么要解构传统数据库?
多媒体内容是最大的不确定因素,潜在的数据量造成难以预测的压力,必然限制和拖累数据库的发展。另外,同样的多媒体内容,可能解读出不同的信息。因此,只有通过特殊算法,将多媒体内容提炼成精简信息后,才能参与信息深度挖掘,以及数据可视化。只有提升信息价值,才能高效解决大多数人的共同问题,即社会有序化问题。由此可见,精简信息是确保大规模信息中枢限制在可控范围,并且方便使用的必要手段。
数据挖掘是一项多学科交叉的领域,但是,业界对数据挖掘的定位不清,导致研究人员难以聚焦。实际上,原因在于对数据、信息和知识的基本概念模糊不清。本书认为,数据(data)是传输和存储的载体(包括记录),数据的承载对象是信息和多媒体内容。其中信息属于知性内容;多媒体主要带来舒适的感受,属于感性内容,当然,可以包含知性成分。只有信息(information),或者说知性内容,才是知识的载体(有意义的消息)。从信息发现角度看,感性内容属于冗余数据,应该事先滤除。实际上,信息本身只是描述事实(或现象),只有把许多信息联系起来,形成一个模型,才能提升到知识(knowledge)境界,用于指导人类活动。
2.如何解构传统数据库?
就是从数据库中剥离多媒体内容。本书认为,数据挖掘实际上包含两个过程:首先,从数据中发现信息;然后,从信息中发现知识。但是,当前的数据仓库和数据挖掘基本上都是从传统数据库发展而来,因此,大部分关于数据挖掘的著作,都把这两个过程混为一谈,导致许多研究工作迷失方向。
关于从信息中发现知识的过程,相对有章可循,经过数十年努力,目前已经具备较完整的数学模型和方法,至少已经有了比较明确的研究方向,大部分数据挖掘的著作中都有类似的描述。关于从数据中发现信息的过程,取决于数据的类型。实际上,每一种数据类型都是一门独立的学问,其中,传统数据库所处理的“结构化”数据已经成熟。但是,除此之外,例如:从文本、网站和多媒体内容中提取信息,还远未成熟。尤其是面对视频内容,如何提取有效信息尚属起步阶段,连发展方向都不清楚。这些领域其实与信息库无关。这项任务可以分配给专门的算法引擎,甚至可用人工辅助实现。也就是说,将不同算法引擎提炼后的信息,统一充实到已有的运行中的信息库。有效应对理论研究与实际应用之间的时间差。在数据仓库和数据挖掘领域,还面临数据规格化和大规模协同作业的难题。我们知道,传统数据库不具备普遍性,即便使用同一家公司的数据库软件和SQL语言,但是,变量定义只在特定的数据库中有效。也就是说,只有数据库的原始开发人员,才能充分使用该数据库的内容。
本书提出信息中枢概念,首先把传统数据库解构为信息库、多媒体内容库、代码字典和用户操作模块。消除信息库中的冗余信息,然后,通过开放的跨平台数据结构和神经网络系统整合传统数据库、数据仓库和数据挖掘的全部功能。最终,完成大规模协同作业的信息中枢。本书所述的信息中枢,只要一本代码字典、一份埋藏信息的地图和统一的神经元传导协议,任何人用任何工具,包括软件或可编程硬件,只要在局部授权的前提下,可以使用信息中枢指定范围内的信息,开发任意应用业务,包括信息挖掘和辅助决策。
3.为什么要建设信息中枢
随着社会信息化深入,伴随两大矛盾:信息集中与分散,信息开放与安全。从人类社会进步角度,信息资源应该集中,打破地区和行业壁垒,避免各自为政,同时面向两大类人群:①水平管理,以信息写入或更改维护为主;②垂直使用,以信息查询和支持决策为主。但是,信息集中可能会受到传统势力和现行管理体系的阻力,好在信息极易复制,可以化解大部分不利因素。
同样从人类社会进步角度,信息资源应该开放,为每一个公民服务,实现信息价值最大化。然而,过度防范导致使用价值受损,过度开放危及信息安全。在现实社会中,不可控的开放必然导致滥用,因此,开放必须有度。我们不能因为担心信息安全而因噎废食。理想情况是,该开放的就开放,该封闭的就封闭,对于不同对象有不同的开放程度。每次接触信息都留下记录,并且随时设定每个人和每台设备的操作权限。但是,如此精确可控信息资源的最大障碍是当前无数个疏于管理的数据库和混乱的网络秩序,或者说,脆弱的安全体系。
本书提出,化解上述两大矛盾的有效途径是建设社会信息中枢。如前所述,信息中枢首先分离多媒体内容,然后通过压缩冗余数据,提取有效裸信息,最后建立精简并无限扩展的信息库。实际上,信息库就是原始信息本体,建立信息库对应了传统数据库的第一要素“建表”过程。信息中枢的信息库包含很多子库,例如个人身份信息库、社团法人(企业)信息库、客户资源信息库、电子商务网店信息库等,这些信息库分散在许多独立的神经元中。传统数据库的第二要素“建索引”就是定义信息存放地址,信息中枢跨介质数据结构对应了建索引过程,这种数据结构隐含在所有神经元中。传统数据库的第三要素“建关联”,实际上就是如何使用信息的题目,这是一个千变万化的过程,决定了整个系统的价值。信息中枢将此功能交给独立神经元完成,不同神经元执行不同的关联。实际上,分工细化有利于提高信息价值,这是社会信息化的象征和必然趋势。
随着信息中枢应用积累,常用的关联都可在已有的神经元找到。信息中枢永远向符合条件的用户开放自定义的神经元,执行包括数据仓库和数据挖掘在内,任意可想象的信息加工任务。另外,信息中枢允许任意多开发团队,同时开发不同的信息加工任务,并且面向无限量的用户群。值得指出,对于无限扩展的信息中枢,每个神经元的复杂度可以维持不变,可以自由定义任意新结构。也就是说,消除了软件和硬件的发展瓶颈。最后,本书提出的信息中枢具备免疫和自愈能力,杜绝病毒黑客攻击。信息中枢像生物体那样生长和新陈代谢,或者说,能够在系统运行过程中,定义不断变化的新任务,完成升级和扩容。
如上所述,信息中枢的用户操作模块主要面向四大类远程用户群:按功能分为信息采集者和信息使用者,按介入深度分为低级用户和高级用户,所述的信息采集者泛指人工信息登录,或自动信息抓取,包括第三方数据库吸纳、媒体内容搜索、多媒体内容识别。所述的信息使用者泛指通过链接、挖掘、推理等手段,从信息中提炼知识,进一步指导决策。信息使用者还泛指多媒体内容点播,包括电子商务、电子教育、娱乐性内容消费。所述的低级用户泛指常用服务套餐的用户;所述的高级用户泛指开发定制功能的用户。当然,所述的每大类用户群还可以进一步细分具体功能。实际上,信息中枢包含并超越传统数据库、数据仓库和数据挖掘的全部功能。
4.如何建设信息中枢
从数据库过渡到信息中枢,或者说,从知性的信息服务过渡到感性的全方位网络体验,主要实现多方位拓展。
(1)内容拓展。过去二十多年来,数据库的内容以数据和文字为主。信息中枢保留原有的数据和文字,把主要着眼点拓展到视、音、图等非文字领域,由此势必引起传统数据库的变革。
主要差别表现在,原有的存储器容量将扩大千万倍,原有的搜索手段已不能有效地获取所需信息。因此,必须创立全新搜索体系,包括建立标准分类码、自定义关键词、独立于元媒体的索引表等。
(2)时间拓展。过去二十多年来,数据库的工作模式仅仅是从存储器中查询历史记录。信息中枢将查询内容拓展到同步信息源,如传感器、面对面影视信息、现场直播等领域。
(3)能力拓展。过去二十多年来,数据库的目标是获取信息。信息中枢将此目标拓展到获取服务,包括模式识别、机器翻译、计算力、存储空间、视音频资料共享等领域。
将一组游戏机放在网络服务中心,面向一个用户群提供共享的游戏点播服务,将大大降低用户游戏机硬件成本,防止软件盗版,减少消费者购买游戏软件的投资,形成硬件、软件和消费者三赢局面。
同理可推广至家用人工智能领域。例如:一位学者可以发明某项特殊算法,并将执行此功能的设备托管在网络服务中心,索尼(Sony)生产的家用机器人或电子宠物可以将原始数据上传至服务中心,按需调用各类算法,然后下载结果。这样一来,一个很便宜的低功耗装置就能变得无限“聪明”,只要适当支付一点“聪明费”即可。
提供服务的手段可以用电脑,也可以用人脑。例如,通过合理有效地调配人工资源,实现人工辅助、同声翻译、网络律师、网络秘书、面对面认证等更具人性化的服务,以补偿电脑能力的不足。
(4)目标拓展。过去二十多年来,数据库内容对所有用户统一编排。信息中枢将个人信息与普通内容有机结合,为不同用户群,甚至单个用户提供个性化目录和服务。
(5)经营拓展。过去二十多年来,数据库大多是封闭式操作,作为面向内部不收费的资料查询系统,不能有效地管理面向社会的超大型广义网络数据库。
信息中枢提供一种全方位协同作业环境,允许任意多远程联网团队,同时开发不同的信息加工任务,并且面向无限量用户群。这些独立开发任务横跨多个不相关领域,很难由少数几个团队完成,例如:不同信息链接和挖掘需求,分析解读不同类型多媒体内容,对应不同聪明程度的各种人工智能算法等。
信息中枢创立了以大一统网络为基础的资源共享体系,创立了多个经营角色之间(供应商、零售商、运营商)的界面,创立了各自独立的收费系统,创立了具备良性循环,可持续发展的开放性商业模式。