2.3 包装大数据知识图谱平台_中国包装大数据知识图谱-QQ阅读男生都市网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.3 包装大数据知识图谱平台

包装大数据知识图谱平台针对目前我国包装行业知识图谱的市场空白和包装领域知识不全面的问题，结合包装学科、计算机学科、图书情报学、统计学和现今发展迅速的数据科学，构建出包含包装学科、包装教育、包装产业等信息的综合性大数据知识图谱，以填补目前包装行业知识图谱的空白。由于构建知识图谱需要大量真实可靠、精确度极高的结构化数据，而针对行业的结构化数据又相对匮乏，本书将在行业知识数据缺乏的情况下，综合多种学科门类，实施多学科交叉融合研究，通过命名实体识别、自动标注、语义分析、实体链接、机器学习等方法从行业统计数据库、图书情报库、网络信息等多源数据中抽取出实体、属性、关系等参数，构建出准确的模式层，进而构建出准确、可信的包装大数据知识图谱。

2.3.1 中国包装产业大数据知识图谱构建及应用

基于知识图谱构建的基本理论，以及项目中开发的知识图谱构建组件，结合采集获取到的包装行业数据，构建中国包装产业大数据知识图谱。一方面用于验证项目中开发的知识图谱构建组件的通用性和易用性，另一方面在包装行业大数据知识图谱的基础上架设应用功能，使用包装行业大数据知识图谱为进一步建设中国包装产业大数据的行业数据情报服务、招聘求职服务、市场咨询服务、创新与众包服务、智慧包装服务、包装知识服务等奠定基础。

从知识图谱构建的自动化程度角度而言，可以分为人工构建方法、自动构建方法和半自动构建方法。人工构建知识图谱通常由大量的专家协作完成，虽然有许多工具在很大程度上降低了人工构建本体的门槛和工作量，但用户仍然需要从零开始逐个编辑各个概念、概念之间的关系以及一些约束规范等。因此，完全由人工构建本体仍然需要耗费大量的人力物力，同时构建的本体难以随着互联网的信息变更而更新以致迅速老化。自动构建的方式通常也叫做本体学习（Ontology Learning），其目标在于利用各类知识获取技术、机器学习技术以及统计技术等自动地从已经存在的数据资源中获取本体知识，从而降低本体构建的成本。半自动构建方式介于人工构建和自动构建知识图谱之间。在现实应用中，完全自动化的知识图谱构建难以实现，因此整个过程通常还需要在用户的指导下进行，是一个半自动的过程。

中国包装产业大数据知识图谱整体构建框架如图2-6所示。

图2-6 中国包装产业大数据知识图谱整体构建框架

1. 中国包装产业领域本体定义

总体而言，中国包装产业大数据知识图谱建设分为两大步骤：中国包装产业领域本体定义和中国包装产业领域相关实体生成。

本体定义是指对图谱中存在的概念、概念的层次结构以及各概念包含实体的基本属性进行定义。本体定义的目的是更好地对数据进行组织，并更有效地服务于业务需求。在中国包装产业大数据知识图谱中，本体定义主要包括中国包装产业的分类体系构建、领域相关的概念定义以及概念的属性定义等。

2. 中国包装产业分类体系构建

分类体系构建的意义在于对知识图谱中的实体进行合理且符合应用需求的归类，良好的分类体系可以更好地组织知识；对于用户而言，知识体系可以引导和帮助他们更好地梳理领域的知识。中国包装产业分类体系构建完成之后，就可以对知识图谱中的各个企业、产品、院校、专家进行分类，使实体的组织更合理有效。

中国包装产业分类繁多，其分类体系可以从不同的维度构建，例如，可以使用《包装领域技术标准体系框架结构》进行归类等。同时，本领域又是一个专业程度很高的领域，而知识体系基本决定了整个知识图谱的架构；因而，建议专家介入，采用半自动的方式进行构建；当然这并不意味着专家需要从零开始进行构建，可以使用《中国包装大数据分类体系》中已有的一些基础的知识体系，使用自动的数据采集技术采集包装工程行业网站数据进行数据整合。

3. 中国包装产业概念及概念的属性定义

概念通常需要具备如下三个层面的信息：内涵（Intension）、外延（Extension）和词汇实现（Lexical Realizations）。内涵指针对此概念描述对象的正式或非正式的定义，如“金属包装容器指用金属薄板制造的薄壁包装容器。它广泛应用于食品包装、医药品包装、日用品包装、仪器仪表包装、工业品包装、军火包装等方面。”外延是指概念所描述的实体对象，如概念“金属包装”中包含烤漆捆扎钢带、复合铝箔纸等。词汇实现是指表示概念的词汇本身以及其他的同义词汇，如描述“金属包装”的词汇有Metal Packing等。

在中国包装产业大数据知识图谱中，基本的概念有产品、企业、机构、包装知识点、事件等。定义好概念以后，就需要为它们定义属性，用于描述该概念下实体的基本特征。例如产品的基本属性有：生产商家、上游产品、下游产品等。

在领域本体构建过程中，专家人工参与的工作会比较多，知识图谱编辑器操作界面如图2-7所示。

图2-7 知识图谱编辑器操作界面

2.3.2 知识图谱构建及应用组件的开发

知识图谱的构建主要有自顶向下（Top-Down）和自底向上（Bottom-Up）两种方法。自顶向下的方法是指首先为知识图谱定义数据模式（即为其定义本体），在定义本体的过程中，首先从顶层的概念开始，然后逐步进行细化，形成结构良好的分类学层次结构；在定义好数据模式后，再把实体一个个往概念中添加。自底向上的方法则刚好相反，首先从实体开始，对实体进行归纳组织，形成底层的概念，然后逐步往上抽象，形成上层的概念。两种方法在具体的构建过程中通常都不是从零开始的，前者可以利用一些现有的结构化的知识库，而后者则可以从开放链接数据或在线百科中得到很多实体。在实际的构建过程中，通常采用两种方式结合的方法。

基于知识图谱构建的基本理论，本项目将对知识图谱构建中所涉及的具体步骤进行抽象并组件化，共分为8大组件的开发，即：知识抽取组件，知识融合组件，知识存储组件，知识编辑组件，知识标注组件，数据访问组件，图谱计算组件，可视化组件。

1. 知识抽取组件

现有原始数据种类丰富、格式繁杂，但总体来说分为结构化数据（原始关系型数据库数据）、半结构化数据（表格、网页类数据）和非结构数据（自由文本数据）。对于不同类型的数据本项目将开发不同的知识抽取组件，具体如下：

①对于结构化数据，将开发D2R映射工具，提供原始关系型数据库到知识图谱Schema的文件映射（如表对应概念、记录对应实体、记录数据对应属性值等）。

②对于半结构化数据，将使用Wrapper组件结构化相关的网页知识，同时提供周期性的数据更新。

③对于非结构化数据，即自由文本类数据，将使用自然语言技术和机器学习模型，在文本中进行命名实体识别，并抽取文本中的概念或实体的上下位关系、同义关系和属性信息。

2. 知识融合组件

知识冲突主要来源于知识抽取组件获得的结构化数据，在转换到知识图谱的结构中，会遇到Schema冲突、实体冲突以及属性冲突等问题。

知识融合组件主要解决Schema融合和数据融合。知识融合组件将对从知识抽取组件获得的结构化数据进行实体与概念的识别、实体合并、实体对齐、上下位关系学习、关联关系学习，把记录型金融数据转化为知识图谱形式的三元组知识；同时提供自动实体的冲突检测，并根据预定的冲突解决策略对融合过程中产生的冲突进行解决。

3. 知识存储组件

知识存储组件用于存储海量原始数据和中间数据，以及知识图谱的三元组知识，提供百亿级别以上三元组知识的存储与更新，保证知识图谱的处理流程中的效率；一方面支持底层数据经过知识图谱学习过程不断对知识图谱进行补充和更新，另一方面为上层高速的数据访问提供支撑，同时开发分布式文件索引存储方式，支持数据的全文索引和统计分析。

4. 知识编辑组件

为了方便多用户对知识图谱进行可视化编辑，需要开发知识编辑组件。知识编辑组件主要包括知识图谱顶层Schema的定义、知识图谱内容的编辑和修改（如知识图谱概念、实体、实体属性、实体关系等的编辑）。

另外知识编辑组件需要提供特定格式的知识批量导入、多用户并发编辑以及知识图谱中编辑知识的审核、版本管理等一系列的基础管理功能。

5. 知识标注组件

对数字资源进行语义标注主要可以分为专家手工标注和机器自动标注两类。专家手工标注将由标注专家根据自身经验和知识对数字资源进行标注。由于对标注的结果的评判标准并不客观，更多地由人的主观意识所决定，所以手工标注的效果相较于机器标注普遍要好。但是手工标注的缺点却很明显，人力成本高且当需要标注的数字资源规模以指数级的速度增长时，尤其在当今这个信息增长飞速的社会，手工标注远远跟不上标注的需求。所以实现自动语义标注是一个迫切的需要。

本项目中将研究和实现基于知识图谱对文档集进行语义标注的技术，其中包括语义标注算法的设计、自动标注的语义相似度计算模型的建立以及标注工具开发。

6. 数据访问组件

知识图谱构建完成之后，一方面用户可以方便自由地进行知识图谱中的数据访问和查询，获取各种类型知识；另一方面开发人员可以以接口形式进行数据的读取。

数据访问组件需要提供多种数据访问的接口或查询规范，主要分为：①信息检索类。数据访问组件需要提供基于关键词、逻辑表达式的知识检索；提供自然语言形式的问答式检索；提供标注结果的读取；②数据读取类。读取平台中的各类型的数据，包括原始数据、知识图谱数据和标注结果数据等。

7. 图谱计算组件

本项目中将针对业务场景对算法进行优化，开发大规模图谱计算组件，支持图算法包括：深度遍历、广度遍历、最短路径、最小生成树、图匹配、网络流等。

8. 可视化组件

开发知识可视化支持组件，需要支持对图谱多层展示、群簇展示等，方便用户用可视化的形式对知识图谱进行访问和展示。

2.3.3 知识图谱构建及应用组件实施方案

定义了中国包装产业领域本体之后，基于知识图谱构建的基本理论，本项目将对知识图谱构建中所涉及的具体步骤进行抽象并组件化，共包含8大组件的开发，即：①知识抽取组件；②知识融合组件；③知识存储组件；④知识编辑组件；⑤知识标注组件；⑥数据访问组件；⑦图谱计算组件；⑧可视化组件。在知识图谱构建过程中，各类组件之间的关联关系如图2-8所示。本节将对知识图谱构建中的每一类组件的开发和实施方案进行详细说明。

图2-8 各组件之间的关联示意图

1. 知识抽取组件实施方案

现有原始数据种类丰富、格式繁杂，但总体来说分为结构化数据（原始关系型数据库数据）、半结构化数据（表格、网页类数据）和非结构数据（自由文本数据）。对于不同类型的数据使用不同类型的抽取工具。

（1）D2R映射工具实施方案

D2R即把关系型数据库中的数据转化为RDF三元组形式的语义数据。本项目中D2R映射工具的总体框架图如图2-9所示。

图2-9 D2R映射工具的总体框架图

本次方案中制订了一组从关系型数据库映射到语义数据的映射规范，即D2RML，该规范使用XML语言描述。

D2RML中的主要关键词及相应的描述功能如下：

● dbtype：源数据库的类型，有MySQL、Oracle、SQL Server等，类型决定了连接时使用的驱动；

● dburl：数据库连接字符串，用于指定数据库的地址、端口和使用的数据库等信息；

● dbuser：数据库的用户名；

● dbpwd：数据库的密码；

● table：源数据表；

● concept：导入目标概念；

● name的colname属性：实体名称来源列；

● synonym的colname属性：同义实体来源列；

● parent的tablename属性：父概念的表名；

● attribute的colname用于指定属性来源列，attrname则用于指定属性名。

在从结构化数据中进行知识映射，首先需要充分理解结构化数据中的基本结构，包括每个表格的含义以及表之间的关联，同时理解知识图谱的结构，然后使用D2RML把结构化数据中的表格与知识图谱中的概念或实体关联起来。知识抽取服务连接映射文件中的目标数据库，读取相应表格中的数据，把关系型数据库中的表和列数据分别映射成概念的实体以及实体的属性，然后把这些映射得到的知识存储到知识图谱中。

（2）行业网站抽取实施方案

行业网站抽取实施方案中可以通过一个json数据配置采集信息，完成数据采集抽取任务。行业网站抽取使用人性化的组件设计，把人的行为模拟成一个一个的组件，用户根据需要选择不同的组件，然后填写相关组件的信息，最后把所有的组件串起来形成一个json数组，也就是采集的配置信息，采集器后台线程就是根据这个json信息来完成采集任务的。行业网站采集抽取的整体架构图如图2-10所示。

图2-10 行业网站采集抽取的整体架构图

行业网站采集抽取包括三个服务端+客户端，其中三个服务端和动态采集抽取器共用，包括Meta、Dedup、Monitor这三个RMI服务。

①采集元数据库：使用的是MySQL作为存储，用来存储采集前台配置的采集任务。

● Meta RMI服务：通过RMI的方式，提供元数据的分发服务，如果任务是并行的，这里面会对任务进行拆分，一个任务可能被分成多个小任务，在不同的线程中去执行，然后采集线程可以通过RMI来获取需要运行的采集任务。

● Dedup RMI服务：通过RMI的方式，提供数据的去重服务，目前是对排重字段计算MD5摘要来比较是否已经存在，采集线程通过RMI来批量对采集到的数据进行去重操作。

● Monitor RMI服务：通过RMI的方式，提供对任务的监控服务，采集线程每运行一个采集任务通过RMI来汇报这个任务所采集到的数据量和结束时间等信息。

②采集线程：是采集器的核心，用来运行配置的采集任务，通过Meta RMI服务来获取任务，然后就开始执行采集任务，通过dedup RMI去重，通过Monitor RMI汇报采集情况，最后保存采集到的数据到目标数据库。

（3）文本抽取工具实施方案

文本抽取工具的总体框架图如图2-11所示。

图2-11 文本抽取工具的总体框架图

文本抽取工具中将集成了现有的自然语言处理领域的基础工具（如分词工具、词性标注工具、命名实体识别工具和句法分析工具等）和基础模型（分类算法、聚类算法、序列模型、图算法等）；另外还将内置一些基础识别器（如人名识别、地名识别、企业名称识别、整数识别、浮点数识别、货币识别等）。

同时文本抽取工具中将提供多种抽取策略：①基于规则的文本抽取方法，提供人工编写规则的描述语言，让用户可以更加方便地编辑规则；②依据用户定义的抽取目标类型（和抽取结果），提供规则的学习框架，减少用户编写规则的工作量，提高抽取结果的召回率；③内置对同义关系、上下位关系等常见知识的抽取模型，并提供其他知识抽取模型的接入功能，提供机器学习模型的接入功能，让用户能够实现特殊知识的抽取。

2. 知识融合组件实施方案

知识融合组件支持对知识图谱的数据模式的自动融合和编辑人员手动整合，同时对多源异构数据中学习到的实体中描述同一目标的进行合并，内置实体自动合并算法，同时支持编辑人员进行实体手动合并。另外，在合并过程中支持冲突发生点（概念和实体的冲突、上下位关系的冲突、属性值的冲突）的自动探测，支持基于数据源可靠性的自动冲突解决方法，支持基于支持因素数目的自动冲突解决方法以及基于人工的冲突解决的方法。其总体框架图如图2-12所示。

图2-12 知识融合组件的总体架构图

其中，实体合并将对从不同数据源中抽取的实体进行合并，内置实体合并的基础算法，包括数据库中的实体合并、百科间的实体合并以及不同数据源之间的实体合并。

Schema规约将从实体的属性规约成概念的属性。Schema整合将从不同数据源中抽取的属性进行合并和整合，形成一致的不重复的属性列表。知识融合组件提供Schema规约功能，把实体的属性规约成概念的属性，并实现属性的合并整合机制。

冲突检测针对可能的冲突点使用相应的策略检测是否发生冲突，冲突解决依据默认的冲突解决算法（如知识支持数、来源可信度等）进行冲突解决，依据用户的反馈进行算法的调整，知识融合组件将实现冲突检测算法，发现知识抽取过程中的冲突，并提供基础的冲突解决算法。

3. 知识存储组件实施方案

知识存储组件旨在为互联网大数据背景下的企业提供对以图形数据为主体、多种数据共存的应用的一站式存储、查询、分析和挖掘平台，主要是要解决如下问题：①海量数据的存储、查询和分析问题，用户不用再担心数据量大的问题，仅需要通过平台提供的接口存储和使用数据即可；②大量图形数据的查询效率问题，组件中的图数据引擎可以高效地管理图形式的数据，提供针对图中数据的关联式查询；③不同类型数据的存储问题，产品提供了图形数据以外的其他类型数据的存储解决方案，包括关系型数据、文档型数据和Key-Value型数据等。

知识存储组件主要分为三大部分：知识存储、采集存储和其他存储，如图2-13所示。其中，其他存储用于存储图谱计算过程中的一些中间数据，如标注结果、图谱挖掘结果等；采集存储主要用来存储采集爬虫采集到的互联网数据，如上文提到的行业网站数据等；知识存储则是图数据存储，设计框架图如图2-14所示。基本的设计理念如下：

图2-13 知识存储组件架构图

图2-14 图存储设计框架图

（1）基于TokuMX存储多类型数据，建立九重索引，并提供不同类型数据的查询接口。

（2）基于数据类型，对数据分表存储。

（3）Redis存储频繁访问的数据。

（4）设计支持高效查询元属性和n元关系的存储结构。

4. 知识编辑组件实施方案

知识图谱抽取组件生成的知识仍需要专家进行完善和改进，知识图谱编辑工具可以支持专家在线实时地进行本体库的编辑，包括知识点的重新组织、增加、删除、修改和查询。知识图谱编辑工具采用图和表相结合的方式提供知识的编辑，应具有良好的易用性。知识编辑组件的总体框架图如图2-15所示。

图2-15 知识编辑组件的总体框架图

知识编辑组件将主要包括以下几大功能：

● 支持图形化所见即所得的编辑，支持多种编辑视图，如展现所有概念的树状视图、展现各类关系的关系视图，以及展现特定节点的详细视图；

● 支持对概念节点、同义关系、属性、上下位关系与实例的编辑。支持对自定义属性的编辑；

● 支持与知识抽取组件之间的接口，可以将编辑的过程与结果推送给知识抽取组件，也可导入知识抽取组件的结果。在增加概念以后，可以实时抽取在百科、搜索引擎上的相关概念定义；

● 支持编辑数据的导入与导出，导出结构应为json或XML格式；

● 支持用户管理、系统参数配置、日志管理等系统管理功能。

5. 知识标注组件实施方案

根据资源的元数据对资源进行知识点标注（Annotation），又称知识标注或语义标注，是实现知识发现的关键技术之一。依据标注方法的自动化程度不同，可以将知识点标注划分为自动标注和手工标注两种。

其中手工标注是指用户通过一个手工标注的环境，人工创建知识点信息，从而实现对文档的语义标注。手工标注可以保证标注结果的准确性，但是同时也存在着以下不足：①手工标注需要大量的人工参与，而且需要花费更多的时间；②用户手工标注需要标注人员具备丰富的领域知识，因此受专家的知识所限；③资源信息成指数级增长，手工标注的速度远远不能满足它们的需求。因此，本项目采用实现基于知识图谱的语义标注方法，开发一个知识点自动标注和手工标注相结合的工具。用户可以首先通过分析元数据提取出标注规则，然后该工具在这些规则的基础上实现对元数据进行语义自动标注。知识标注组件整体框架图如图2-16所示。

图2-16 知识标注组件整体框架图

本项目采用的语义标注方法将采用自动标注和手工标注相结合的形式，先通过自动标注对文档集合进行“贴标签”，接着再由领域专家通过手工标注工具对那些已经“贴标签”的文档进行检查，如果在检查过程中发现文档的标签与专家心目中的有出入，则可通过手工标注工具进行改正，如图2-17所示。

图2-17 知识标注算法方案

由于对文档进行标注的效果主观性更大，并没有一个很好的机器评判标准来确定标注的结果是否准确，所以需要人工的干涉与审批来判断标注的结果是否准确合理。本文采用的人工干涉是让对该领域熟悉的专家来对机器标注的结果进行审批，即手工标注。领域专家会对机器标注结果不理想的标签进行修改，提高整体的标注效果。

自动标注将通过TF-IDF、Jaccard和HowNet语义相似度来得到自动标注的结果，而手工标注将通过Web页面形式的手工标注工具来对标注结果进行修正。

6. 数据访问组件实施方案

数据访问组件将实现多种数据访问的接口或查询规范，例如，支持restful接口、JavaAPI等多种形式的读取方式，主要分为：①信息检索类。数据访问组件需要提供基于关键词、逻辑表达式的知识检索；提供自然语言形式的问答式检索；提供标注结果的读取；②数据读取类。读取平台中的各类型的数据，包括原始数据、知识图谱数据和标注结果数据等。数据访问组件框架图如图2-18所示。

图2-18 数据访问组件框架图

这里我们将重点阐述自然语言问题的实现方案。

自动问答是指用户以自然语言提问的形式提出信息查询的需求，系统依据对问题的分析，从各种数据资源中自动找出准确的答案。一般来说，问答系统处理的数据对象主要包括用户问题和答案。依据用户问题的所属数据领域，问答系统可分为面向限定域的问答系统、面向开放领域的问答系统以及面向常用问题集（Frequent Asked Questions，FAQ）的问答系统。

不同类型的问答系统对于数据处理的方法存在不同。例如，相对于面向FAQ的问答系统的问句检索直接得到候选答案，面向开放领域的问答系统首先需要根据问题分析的结果进行相关文档、文本片段信息的检索，然后进行候选答案的抽取。虽然不同类型的问答系统对于系统模块的功能分工和具体实现存在差异，但依据数据流在问答系统中的处理流程，一般问答系统的处理框架中都包括用户查询意图分析与理解、查询与检索、候选答案生成与排序三个功能组成部分，如图2-19所示。

图2-19 自动问答系统的基本过程

一直以来，知识库规模的发展成为问答系统发展的瓶颈。互联网的转型，知识图谱的诞生逐渐成为突破瓶颈的可能。将知识图谱应用到自动问答系统中，将问句分析在知识图谱中进行最优子图匹配实现问啥答啥的智能问答系统。

采用知识图谱的方式查询相比传统搜索引擎简单字符串匹配，让搜索结果与查询内容更加紧实，同时知识图谱的构建源自海量数据的整合处理，也避免了跨领域问题查询偏差。也就是说，在知识图谱的基础上，通过各种逻辑算法分析处理自然语言实现抓住最符合问题的关键匹配知识图谱，从而找出答案，实现智能问答。

基于知识图谱实现的自然语言问答的可行性技术方案如图2-20所示，主要分为以下几个步骤。

图2-20 基于知识图谱实现的自然语言问答的可行性技术方案

（1）基于知识图谱的分词

将知识图谱作为分词算法词库，构建基于知识图谱的领域分词模型，对用户问题进行分词理解，最大程度地划分和理解用户的问题。

（2）基于知识图谱的实体、概念、属性等识别

对分词之后的用户问题进行命名实体识别（主要识别知识图谱中的实体、概念、属性、操作符等），并利用知识图谱对用户问题中的分词实体进行语义消歧。

（3）子图理解和问题解析

主要实现对用户问题的语义理解和翻译，分为三个模块：问答对解析模块、图谱问答解析模块和业务问答解析。

● 问答对解析模块。问答对解析一方面为了集成企业内部现有标准问答数据，更加精准地回答用户的提问；另一方面随着问答系统数据的积累，可以从用户问题中提炼或抽象标准问答信息，再反馈到问答系统中，让问答系统越问越智能。

● 图谱问答解析模块。图谱问答解析主要实现将用户问题映射到知识图谱的子图上，从而理解和翻译用户的查询意图，从图谱中查找相应问答答案返回用户。

● 业务问答解析模块。业务问答解析主要实现将映射到知识图谱子图的用户问题结合BI业务规则，转换为业务BI查询。

（4）查询转换

将语义理解和解析之后的用户问题转化为图查询语言或者Spark SQL查询逻辑。

（5）执行排序和返回

从知识图谱中查询获得的数据进行整理和排序，使用适合的可视化组件返回给用户。

7. 图谱计算组件实施方案

知识图谱上除了基本的数据访问和查询需求外，还需要进行知识图谱中数据的挖掘和分析。现有部分图数据库中会包含一些图算法的支持，例如，Neo4j中包含了图的遍历算法和最短路径算法。Neo4j中的最短路径算法是基于Dijkstra算法实现的，Dijkstra算法的时间复杂度为O（V^2），显然，在亿级别顶点的图中，它的复杂度是不能承受的。不仅如此，在图论领域的大部分算法，在亿级别节点和边的场景下，其时间和空间消耗均是在现有硬件条件下难以满足的。因此，必须依据现实的应用场景，对现有的算法进行优化，通过设置约束条件，达到用户的目的。

8. 可视化组件实施方案

知识可视化集成国内外著名的开源组件，如：D3.js，Echart.js等，开发知识可视化支持组件，支持对图谱多层展示、群簇展示等，方便用户用可视化的形式对知识图谱进行访问和展示。