数联网:大数据如何互联
上QQ阅读APP看书,第一时间看更新

|1.3 数联网的关键内容|

数联网的核心是如何让数据进行联网,这些数据以何种形式进行标准化,如何传输数据,如何进行数据寻址以及如何解读数据的内容等。

1.3.1 数据如何互联

大数据如何直接进行互联呢?我们首先要解决网络连接的问题,其是建立在承载网络之上,还是建立在自己单独建立的网络上?笔者更倾向于采纳叠加于互联网之上的连接模式,即将互联网作为承载网。

1.3.1.1 从网络基础开始的互联

在互联网连接之前,个人计算机通过局域网、广域网等进行了基本的网络连接,并实现了一定程度的资源共享。例如,个人计算机可以通过远程访问的方法,登录到远端的一台大型计算机上,在这台大型计算机中进行程序的运算,并生成结果,为自己的企业进行信息计算服务。

如图1-7所示,两台计算机通过调制解调器可以进行通信,获取彼此的数据。这种计算机网络的连通是点对点的,这就构成了最初的计算机网络。

图1-7 计算机通过调制解调器进行通信

1.3.1.2 建立在互联网之上的互联

数联网是独立建设自己的网络,还是复用现有的互联网呢?笔者认为比较可行的方案还是在现有互联网的基础上进行叠加,即将互联网作为底层的传输网络,然后构建一层能够进行数据直传的网络。

如此,我们可以借鉴互联网现有的硬件链路基础,解决基本的底层通信。但是,与互联网不同的是,数联网要以数据的寻址、存取、解读为目标,要在互联网基础之上,实现上述功能。

1.3.1.3 数据的检索问题

互联网中有海量的信息,要想获取这些信息,首要的问题就是索引。通过谷歌、百度这样的检索网站,用户可以获取互联网中所需的信息。

同样地,在数联网中,首要的问题就是为数据的内容和存储位置建立索引,如此才能告知用户,其所需的数据内容存放在哪些计算机上。借助一种数据浏览器,用户才可以获取所需的数据内容。

例如,张博士要买A汽车,那么如何对A汽车的各种数据进行检索,就是首要的问题。他可以将A汽车作为主要的关键字,然后可以将越野能力、油耗、保养成本等作为关键词,建立索引。

基于这些关键字,张博士可以建立数联网索引。如此,张博士就可以直接索引到几百个数据库,连接到一个感兴趣的数据库之后,他就可以直接获取该数据库中的相关油耗数据记录,然后自己计算有关的平均油耗等数据。

1.互联网始于谷歌检索

互联网的发展离不开谷歌的巨大贡献。当所有计算机连接到互联网之后,如何检索这些数据的内容和位置,成为了大家面临的首要问题。谷歌借助“爬虫”等技术,对互联网上的计算机内容进行爬取,然后分类,建立索引,如图1-8所示。通过这种索引机制,谷歌一下盘活了互联网上的各种信息。

图1-8 互联网“爬虫”的原理示意

这种“索引”机制是互联网信息浏览、使用的基础。谷歌是基于互联网文件格式进行爬取的,取出有关的内容信息,再通过PageRank算法进行排序和检索。

在数联网中,如何模仿互联网进行数据的检索呢?

2.数联网的检索模式

谷歌的检索基础是互联网的文件机制。而在数据库环境中,无法直接进行“爬虫”,那么,数联网如何进行检索呢?

在数据库中,用户通过SQL中的相关语言,可以检索出数据库中的各种表格。那么,数联网中对于这种检索结果的表述,应该是给出具体的数据库链接,用户点击这个链接就可以直接登录这个数据库,然后借助SQL,用户可以直观访问这个数据库中的各种数据。

另一种可以建立直接检索机制的方式是,张博士要检索汽车A的油耗数据,就将各种油耗数据直接检索出来,如张博士直接列出所有A汽车的油耗数据,用于查询。

此时,张博士只需在输入框中,输入“A汽车 油耗数据”,数据检索就会反馈出数联网的数据库(含Hadoop中)涉及A汽车的油耗数据及其检索链接。张博士可以通过链接登录到相关的数据库,或者直接读取有关的结果数据,形成自己的结果。

在这些结果中,张博士能够看到不同数据库中A汽车的油耗数据,据此进行直接计算,得出量化的A汽车油耗数据。

1.3.1.4 如何管理数据

数联网要连接各种数据,首先要解决这些数据如何管理等问题。这些内容包括:如何对数据进行标准化表述;如何让数据的消费者理解数据的含义(语义);如何进行这些数据的寻址等。

1.数据的标准问题

数联网要解决数据的标准化问题,首先要解决数据的标准化单位表述问题。例如,温度就要被统一表述为摄氏度,而不用华氏度等单位。这样,用户在看到关于北京的年平均气温的表述时,就知道是采用摄氏度计量的。其次,要解决数据的制式问题,目前互联网采用的是十进制方法,以阿拉伯数字进行表示。

这些问题是简单的标准化描述问题,真正困难的是对数据的语义理解。

2.数据的认知问题

在解决了数据的标准表述形式之后,我们还要解决数据的语义理解问题,即如何读懂数据的口径。例如,北京的平均气温,是由计算公式计算出来的。这个计算公式,就是数据的元数据。元数据是关于数据的组织、数据域及其关系的信息,简而言之,元数据就是关于数据的数据。

例如,北京的年度平均气温,是每个月的平均气温进行平均之后的结果,而每天的平均气温是采集了多个地点的温度之后进行计算的,这些被平均计算的内容就是元数据。

如果张博士想了解北京2017年的年度平均气温,不仅要调出有关的数据值,还要获取这个数据的统计口径。在获取这个统计口径的元数据之后,张博士就可以完整地了解这个平均气温的计算公式,对这个数据值会有更深刻的理解。

3.数据的寻址问题等

互联网的网页通过URL(Uniform Resource Locator,统一资源定位符)进行寻址,将其转换为IP地址后,系统就可以获取有关网页的具体位置。那么数联网中的数据如何进行寻址呢?数联网中的数据也要有个类似URL的地址表述内容,基于此地址,系统再找到该数据所在的数据库或者HDFS文件,然后读取相关的数据值和元数据等。

URL是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示方式,是互联网上标准资源的地址。数联网上的每个数据库都有一个唯一类似URL的标识,它包含的信息有数据库的位置、数联网浏览器对数据的处理等。

基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。模式/协议告诉浏览器如何处理将要打开的文件。最常用的模式是超文本传输协议(Hypertext Transfer Protocol,HTTP),这个协议可以用来访问网络。

其他协议如下:

HTTP——超文本传输协议资源;

HTTPS——用安全套接字层传送的超文本传输协议;

FTP——文件传输协议;

Mailto——电子邮件地址。

数联网可以在URL中增加独特的协议描述,使其不再是HTTP,而是基于数据访问的协议,如data(数据传输协议)和database(数据库传输协议)。在这两种协议中,前者表述数据的传输;后者表述具体的数据库登录以及数据结果的获取。

构筑了这种数据传输的专项协议之后,我们还要考虑设计专项的数据浏览器。

1.3.2 构建数联网要解决的关键问题

构建数联网,除了要解决上述的数据检索、数据认知、数据寻址等问题之外,还要解决一些更高层面的关键问题。

1.3.2.1 系统架构层面的问题

借助独特的协议,系统可以实现数据间的寻址、共享等。数联网构筑在大数据平台之上,它的数据架构要先吻合大数据要求的体系架构要求。数联网还要解决不同大数据系统间互联互通的问题(它可以借鉴互联网的通信层次架构,进行不同层级的数据互通)。数联网还要有足够的场景,支撑数联网的特色应用,具体架构如图1-9所示。

图9-1 数联网系统架构

1.3.2.2 业务应用激励模式

数联网是否也像互联网一样,业务以搜索、社交和电商为主?互联网模式正是依靠这些关键的业务,奠定了互联网的发展基石。同样地,数联网的发展,也需要资本的深度介入,从而为新技术的探索注入血液。

互联网是靠关键的业务(如BAT业务模式)驱动,发展至今。数联网同样需要关键的业务场景,激励自身的发展和壮大。这些业务模式的产生需要业界去摸索,没有现成的经验可以借鉴。

在数联网中,首先会出现大数据的搜索厂商,其能够把用户需要的数据送到用户手上;其次,在大数据的交易方面,会有类似淘宝的网站出现,其在法规允许范围内可以解决有价值数据的交易(非免费)问题;而在数据的口径解释等方面,也会有相应的社交群体出现。

此外,一些大数据特色业务应用也会出现。例如,大数据治理会成为一个单独的产业,包括大数据的标准表述、元数据的解释、数据质量控制、数据安全管控等内容。

同时,借助大数据的丰富维度,单独的基于大数据的专业营销公司也会出现,帮助企业更精准地销售产品,企业也可以将营销工作进行外包。这将彻底改变目前的企业运作模式。

1.3.2.3 设备管理方法

在数联网中,大数据更多被存放在Hadoop等云计算的设备中,如何管理这些设备就成了基本的难题。

Hadoop的计算节点较多,基本采用X86计算机,如何对这些海量的X86计算机进行管理是个关键问题。目前Hadoop的设备基本分布在不同的集群内,系统首先要保障集群内部的节点能够可靠运行,避免数据丢失;其次要考虑集群间的协作问题,即不同的Hadoop计算集群如何进行数据的交互,如何进行计算的分布等,这里也会涉及异构计算集群的互联、互通问题。

Hadoop集群的跨域部署问题也将凸显出来。即采用什么样的集群部署方案,在不同的地理位置间(如北京和上海之间)部署一个Hadoop集群?从而解决异地跨域容灾问题和计算分布问题。

设备的管理,涉及到设备的监控、调度等。目前,Hadoop提供了开源的集群内部管理工具Ambari,该工具能够执行Hadoop集群内部的平台监控、性能监控、状态监控、告警管理、故障诊断、任务管控等功能;但其在数据跨域监控、容灾等方面,还没有成熟的解决方案。

我们可以在现有Hadoop的架构能力下,借助现有的一些开源管理工具,进行集群内部和多集群间的监控等管理工作,保障未来数联网中每个节点(集群或者单点)都能够平稳运营。

1.3.3 如何保护数据的隐私

在数联网中,用户的隐私应该被重新定义。因为在数联网中,用户的各种信息将被充分暴露,这些信息交叉、融合后,能够对用户形成360°、全生命周期的分析视图。

另一方面,站在法律的角度,我们需要对涉及用户隐私的核心数据进行安全保护,避免这些数据落入非法使用者手中,对用户造成侵害。

如何对数联网中的数据进行保护,我们需要从法律、技术、管理等多个角度进行探索。

1.3.3.1 数据隐私的定义和范围

首先,我们要从法律、法规层面,对隐私数据的概念和范围进行定义。根据我国法律规定,下列行为属于侵犯隐私权。

(1)《中华人民共和国侵权责任法》第二条“侵害民事权益,应当依照本法承担侵权责任。本法所称民事权益,包括生命权、健康权、姓名权、名誉权、荣誉权、肖像权、隐私权、婚姻自主权、监护权、所有权、用益物权、担保物权、著作权、专利权、商标专用权、发现权、股权、继承权等人身、财产权益。”本条款内容将“隐私”作为独立的权利加以保护;第二十二条规定了“侵害他人人身权益,造成他人严重精神损害的,被侵权人可以请求精神损害赔偿。”

(2)《互联网电子公告服务管理规定》第十二条规定:“电子公告服务提供者应当对上网用户的个人信息保密,未经上网用户同意不得向他人泄露,但法律另有规定的除外。”

随着数联网的发展,数联网中将流动着大量的客户数据,未来我们对隐私数据的定义,也将会不断进行动态调整。数联网中的数据安全将越来越重要。

1.3.3.2 单节点大数据安全

在技术上,我们要从单节点角度考虑系统的安全问题。传统的安全策略,基本围绕网络侧进行安全管控工作。而从单节点角度,我们需要考虑,如果网络侧被攻破之后,如何保证数据不被窃取?或者被窃取之后无法被解密?

Hadoop本身是开源的,HDFS文件也基本是明文存放的,故我们要对Hadoop进行安全加固改造。

目前,我们采用的方法是对数据进行脱敏处理等。即使黑客进入了Hadoop集群内部,能够获取数据文件,但是因为数据文件是加密的,其也无法获取数据文件的具体内容。

另一方面,相关机构也应加强安全管控的管理工作,建立相关的规章制度,并严格执行这些规章制度,确保系统中数据的安全。

1.3.3.3 数联网的数据隐私保护

除了单点之外,数联网还要考虑数据传输过程中的隐私保护问题。在互联网中,HTTP给出了HTTPS加密方式,那么在未来数联网的传输协议中,我们也可以参照这种方法给出加密的传输协议。

由于数联网的底层将构筑在互联网之上,因此数联网可以复用现在互联网传输层面的各种安全控制技术。而我们也将对未来的数据浏览器等工具进行技术创新,以保障在高层进行的安全管控工作。我们可以采用类似HTTPS的方法,对数据传输协议进行加密。

1.3.4 从“免费”到“盈利”

互联网的应用始于免费,借助用户流量,开创出了“后向收费”的盈利模式。同样地,数联网也将面临如何盈利的问题。数联网的盈利方应该是谁,是用户还是拥有用户数据的厂商,或是开发数据应用的厂商呢?

1.3.4.1 免费催生了互联网今天的发展

互联网诞生之初,网络传输质量极差,时断时续;网络的应用也十分稀少,信息的网络共享始于Telnet和BBS等。互联网通过采用对用户端免费的模式,瞬间扩展了市场规模,也让资本市场燃起共舞的激情,催生了百度、阿里、腾讯等互联网巨头。

在数联网发展之初,我们也可以借鉴这种“前向免费”的模式,即对使用用户免费,而采用“后向收费”的模式,维持发展。此外,数联网还要探索新的盈利模式。

1.3.4.2 用户盈利会促进数联网的发展

在互联网现有模式的基础上,数联网可以发展出更多的商业模式。在用户“前向免费”的基础上,是否可以有让用户盈利的模式?即让用户在分享自己数据的时候,可以获利。例如,张博士可以将自己6个月的购物记录打包出售。由于张博士是高端用户,因此很多企业会对他的记录感兴趣:餐饮企业会看看张博士喜欢吃什么口味的饭菜,多长时间外出吃一次饭等;服装企业希望分析张博士的购物习惯,他喜欢购买什么款式的衣服,平均每件衣服花费多少钱等;汽车企业希望分析张博士用车的习惯,他多长时间加一次油,每天驾驶多少千米,多长时间进行一次维修保养等。

这些高端用户的消费细节数据有较大的商业价值,不同的企业对其都有分析的需求。对此,可以先由中介代理公司,购买张博士数据,然后,再将其分割卖给不同的企业。

1.3.4.3 用户盈利的模式

如果用户能够主动选择出售自己的数据直接盈利,就解决了用户隐私被侵权的问题。用户授权外部企业可以合法使用他的相关数据,进行各种分析应用。这样就可以激活大数据应用的合法性,同时也激发了用户参与大数据应用的积极性,因此这将极大地促进数联网的发展。

这种商业模式的扩展,会促进数联网快速发展。