1.1.2 多源数据集成
云计算环境下,针对各种不同的应用产生了各种各样的数据源,如结构化的关系数据库和面向对象的数据源、半结构化的HTML(Hypertext Markup Language,超文本标记语言)、无结构文本、文档数据源及多媒体数据等。这些数据源结构不同,语义各异,它们之间可能存在着各种差异和冲突。从数据库的应用角度来看,网络上的每一个站点也是一个数据源,每一个站点的信息不同并且组织方式不一样,它们都是异构的,因此构成了异构数据的大环境。从数据采集的角度来看,各种传感网感知的数据格式没有统一的标准,导致采集的数据结构不同,语义不同,存在异构性,在多集成环境下给多应用系统之间数据的采集、转换和统一处理带来了很多问题和挑战。
多源异构采集及融合系统的目标是解决这些冲突并把这些异构数据源最终转化为一种统一的全局数据模式,以供用户的透明访问和使用,用户在对数据源进行访问时,仿佛在操作一个数据源[2]。因此,本节要做的工作是不仅要为感知的数据定义统一的数据表示格式,还要为标准的数据格式提出统一的数据生成及解析方法,具体分为两个阶段:数据集成和数据融合。数据集成侧重于数据的聚集,是数据处理的初级阶段,是对不同数据源数据的集合。数据融合是数据集成的高级阶段,着重于对不同数据源中不一致的数据进行分析处理,融合成统一的知识题,侧重于通过数据优化组合导出更多有效的信息。
总之,随着信息化进程的发展,人们需要对数据进行有效集成并对有效数据进行数据挖掘。大规模的数据流甚至是海量数据的处理均需要大量的计算能力。目前,海量数据集成存在以下问题[3]。
(1)封闭性。大部分的企业信息化都是部门内部使用,都是以封闭的状态存在,缺乏对外开放的接口。
(2)信息“孤岛”。由于企业信息化以部门为单位,这样各个部门之间的数据不能得到很好的共享,因此形成了一个个彼此分离的信息孤岛。
(3)缺乏规范和标准。企业信息的完成没有固定的标准,从而造成了数据融合和分析的难度。
(4)海量大规模。数据的急剧增加,使得现有的数据管理平台无法支持大数据的有效管理和存储,因此数据处理必然需要分布计算的帮助。