1.3 图数据的应用场景
我们提到图,更多的是带有一种数学上的理论色彩,在实际的数据场景中,我们通常将图称为网络(Network),与之对应的,图的两个要素(顶点和边)也被称为节点(Node)和关系(Link),比如我们熟知的社交网络、物流网络等概念名词。为了达成统一并与神经网络(Neural Networks)中的“网络”概念区分开来(尽管神经网络也是一种网络),本书将网络数据称为图数据。
图数据是一类比较复杂的数据类型,存在非常多的类别。这里我们介绍其中最重要的4类:同构图(Homogeneous Graph)、异构图(Heterogeneous Graph)、属性图(Property Graph)和非显式图(Graph Constructed from Non-relational Data)。
(1)同构图:同构图是指图中的节点类型和关系类型都仅有一种。同构图是实际图数据的一种最简化的情况,如由超链接关系所构成的万维网,这类图数据的信息全部包含在邻接矩阵里。
(2)异构图:与同构图相反,异构图是指图中的节点类型或关系类型多于一种。在现实场景中,我们通常研究的图数据对象是多类型的,对象之间的交互关系也是多样化的。因此,异构图能够更好地贴近现实。
(3)属性图:相较于异构图,属性图给图数据增加了额外的属性信息,如图1-9所示。对于一个属性图而言,节点和关系都有标签(Label)和属性(Property),这里的标签是指节点或关系的类型,如某节点的类型为“用户”,属性是节点或关系的附加描述信息,如“用户”节点可以有“姓名”“注册时间”“注册地址”等属性。属性图是一种最常见的工业级图数据的表示方式,能够广泛适用于多种业务场景下的数据表达。
图1-9 属性图
(4)非显式图:非显式图是指数据之间没有显式地定义出关系,需要依据某种规则或计算方式将数据的关系表达出来,进而将数据当成一种图数据进行研究。比如计算机3D视觉中的点云数据,如果我们将节点之间的空间距离转化成关系的话,点云数据就成了图数据。
在我们研究多元化对象系统的时候,图是一种非常重要的视角。在现实世界中,图数据有着十分广泛的应用场景。下面我们举几个例子进行说明,如图1-10所示。
社交网络:社交网络是十分常见的一类图数据,代表着各种个人或组织之间的社会关系。如图1-10的a图展示了在线社交网络中的用户关注网络:以用户为节点,用户之间的关注关系作为边。这是一个典型的同构图,一般用来研究用户的重要性排名以及相关的用户推荐等问题。随着移动互联网技术的不断深入,更多元化的媒体对象被补充进社交网络中,比如短文本、视频等,如此构成的异构图可以完成更加多样化的任务。
电子购物:电子购物是互联网中的一类核心业务,在这类场景中,业务数据通常可以用一个用户–商品的二部图来描述,在如图1-10的b图所展示的例子中,节点分为两类:用户和商品,存在的关系有浏览、收藏、购买等。用户与商品之间可以存在多重关系,如既存在收藏关系也存在购买关系。这类复杂的数据场景可以用属性图轻松描述。电子购物催生了一项大家熟知的技术应用—推荐系统。用户与商品之间的交互关系,反映了用户的购物偏好。例如,经典的啤酒与尿布的故事:爱买啤酒的人通常也更爱买尿布。
化学分子:以原子为节点,原子之间的化学键作为边,我们可以将分子视为一种图数据进行研究,分子的基本构成以及内在联系决定了分子的各项理化性质,通常我们用其指导新材料、新药物的研究任务,如图1-10的c图所示。
交通网络:交通网络具有多种形式,比如地铁网络中将各个站点作为节点,站点之间的连通性作为边构成一张图,如图1-10的d图所示。通常在交通网络中我们比较关注的是路径规划相关的问题:比如最短路径问题,再如我们将车流量作为网络中节点的属性,去预测未来交通流量的变化情况。
场景图:场景图是图像语义的一种描述方式,它将图像中的物体当作节点,物体之间的相互关系当作边构成一张图。场景图可以将关系复杂的图像简化成一个关系明确的语义图。场景图具有十分强大的应用场景,如图像合成、图像语义检索、视觉推理等。图1-10的e图所示为由场景图合成相关语义图像的示例,在该场景图中,描述了5个对象:两个男人、一个小孩、飞盘、庭院以及他们之间的关系,可以看到场景图具有很强的语义表示能力。
电路设计图:我们可以将电子器件如谐振器作为节点,器件之间的布线作为边将电路设计抽象成一种图数据。在参考文献中,对电路设计进行了这样的抽象,如图1-10的f图所示,然后基于图神经网络技术对电路的电磁特性进行仿真拟合,相较于严格的电磁学公式仿真,可以在可接受的误差范围内极大地加速高频电路的设计工作。
图数据的应用场景远不止这些,还有诸如描述神经网络计算过程的计算图、传感器阵列网络、由各类智能传感器构成的物联网。事实上,如果要找一种最具代表性的数据描述语言与现实数据对应,那么图应该是最具竞争力的候选者。总的来说,图数据的应用跨度大、应用场景多,研究图数据具有广泛且重要的现实意义。