1.7 大数据时代的网络分析
我们生活在一个互联实体构成的复杂世界中。人类涉足的所有领域,从生物学到医学、经济学和气候科学,都充满了大规模数据集。
大数据时代的数据呈现大量、多样、真实、快速、价值等特点。这些数据集将实体模拟为节点,节点之间的连接被模拟为边,从不同且互补的角度描述着复杂的真实世界系统。
数据时代的到来给致力于复杂网络的研究带来了新的机遇和挑战。国务院于2015年8月颁发的《促进大数据发展行动纲要》中明确要求要“融合数理科学、计算机科学、社会科学及其他应用学科,以研究相关性和复杂网络为主,探讨建立数据科学的学科体系”。
复杂网络的研究历程体现了人们处理数据的能力不断提升。以小世界实验为例,米尔格拉姆当初的实验只涉及到300人左右。2001年,Watts等人建立了一个“小世界项目”网站以检验六度分离假说,有6万多名志愿者参加了该实验。近年来,各种在线社会网络不断涌现,产生了规模越来越庞大的网络数据。2011年,Facebook信息平台对于其平台上大约7.21亿个活跃用户的研究表明,两个用户之间的平均距离仅为4.74[31];2016年2月发布的结果表明,Facebook上大约15.9亿活跃用户之间的平均距离缩短到了4.57[32]。汪小帆教授在文献[33]中总结了数据时代的网络科学研究特别关注的一些问题,其中包括基于数据的网络构建、特征挖掘、特征建模、网络控制等重要问题。
(1)基于数据的网络构建
随着人们能够收集的数据规模越来越大,种类日益增多,如何基于大数据构建合适的网络也变得日益重要。例如,互联网和WWW等网络通常通过爬取等方式获得不完整节点和连边,而生物网络中的许多连边(如蛋白质之间的相互作用)目前尚未能通过实验获取。因此,对实际复杂网络进行分析面临如下问题:如何获得高质量的网络结构数据?如何科学地分析数据质量?对不完整的网络结构数据所做的分析在多大程度上能够推广到整个网络?此外,即使有了高质量的网络数据,针对所研究的问题,往往也需要对数据做恰当的预处理以生成合适的网络。
(2)基于网络的特征挖掘
近年来,人们从不同的角度尝试揭示实际复杂网络的各种结构性质,并取得了不少有价值的成果。但是,网络科学发展到今天已远不能仅仅停留在计算小世界和无标度等性质的水平上,必须要有新的发现与认识,解决新的问题,如:哪些拓扑性质对刻画网络结构具有重要性?各种拓扑性质之间具有什么样的关系?同时,如何有效处理包含数千万乃至数亿节点的网络等相关的算法问题也是在大数据背景下面临的新挑战。基于大数据的算法研究有可能成为复杂性科学研究的技术基础之一,从节点重要性分析、社团结构挖掘到链路预测和推荐算法等,其算法复杂性分析、快速近似算法、并行计算、分布式图存储问题等都值得深入研究。
(3)基于特征的网络建模
前些年网络科学研究主要集中于固定拓扑结构的网络,而现实网络很多是随时间和空间变化的。在含有时间空间的网络上的动力学过程可能会呈现出与静态网络和非空间网络极为不同的规律。许珺等在《中国计算机学会通讯》上发表的文章对空间网络数据挖掘作了很好的综述[34]。此外,以前网络科学研究主要针对的是单个网络,而事实上许多网络都不是孤立存在的,而是与其他网络之间存在着相互依赖、合作或竞争等关系。随着数据获取能力的不断增强,对多层网络(也称网络的网络)的理论与应用研究将会不断深入[35]。
(4)数据驱动的网络控制
在控制界,对大系统控制的研究已有较长的历史并取得了不少成果。对于大规模复杂网络系统的控制而言,近年关注的重点是能否以及如何通过对部分节点直接施加控制而达到控制目标[31]。一些挑战性问题包括:①可行性问题,当网络规模很大时,控制理论中已有的判据和算法的计算复杂度往往难以承受,因此需要寻找新的有效算法;②有效性问题,如何选取受控节点才能使得达到控制目标所花的代价尽可能小;③鲁棒性问题,大规模复杂网络往往面临由于随机故障或者有意攻击而导致的节点或连边失效,需要给出判别大规模网络控制系统中的关键节点和连边的有效算法。