基于数据发布的隐私保护模型研究
上QQ阅读APP看书,第一时间看更新

第一节 KDTICM理论

1989年,在底特律第11届国际人工智能联合会议上提出了知识发现(KDD: Knowledge Discovery in Databases)的概念,Fayyad给出的定义是“从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。知识发现是一个受到来自各种不同领域的研究者关注的新兴、交叉、边缘学科领域。

1997年杨炳儒教授另辟蹊径,开创了研究KDD的新思路:从内在的认知机理考虑研究知识发现。[5-8]其核心思想是:把知识发现的过程视为一个认知过程,把知识发现的系统看作是一个认知的系统,用系统论和认知科学的思想和方法来研究复杂的知识发现过程。首次发现了知识发现系统内在认知机理涵盖的三个机制(原理):双库协同机制、双基融合机制和信息扩张机制,并分别给出其核心定理及其实现技术,此项研究揭开了国际上研究KDD的新方向。

随后杨炳儒又提出了基于知识库的知识发现(Knowledge Discovery in Knowledgebase, KDK)。基于知识库中的事实,首先基于归纳学习的方法生成归纳假设,然后使用卡尔纳普的归纳逻辑进行假设的验证与评价。针对知识库中的规则,首先采用广义概念格方法产生归纳假设,然后使用柯恩的归纳逻辑进行假设的验证与评价。

综合上述成果,2002年杨炳儒教授在国际上首次提出了“基于内在认知机理的知识发现KDTICM理论(Knowledge Discovery Theory based on In-ner Cognition Mechanism)”。KDTICM的理论支柱是三个基本机制(原理),由基础理论层、内在认知机理层、过程模型层、技术方法层、智能系统层五个彼此相互联系的层面构成。[9-21]

图2-1 KDTICM理论的总体结构图

第一层面(理论基础模块层)。包含了多个基础理论的研究成果。提出了多个层次的结构逻辑、广义归纳的逻辑因果;因果关系的判定方法、因果关系进行的定性推理的模型和方法;基于专家知识的归纳及获取;语言场与语言值结构的知识表示方法等。

第二层面(内在机理模块层)。由基于双库的协同机制、基于双基的融合机制、基于信息的扩张机制和基于免疫的进化机制四部分构成。包括:启发和协调维护算法、结构对应定理、可达关系概率估计定理;RST三类协调算法、过程模型逻辑等价定理;参数演化定理、不动点原理、突变性原理等。

第三层面(结构模型模块层)。包含内在机理的研究推导出来的多个新型结构模型。包括:KDD过程模型(基于双库的协同机制的知识发现过程,用于处理结构化数据挖掘问题); KDK过程模型(基于双基的融合机制的知识发现过程); KD(D&K)过程模型(基于双库的协同机制、双基的融合机制的具有全新特征的知识发现新系统,强调了知识发现过程的认知自主性); DKD(D&K)过程模型 [强调了分布式的KD(D&K)过程]; KDDE过程模型(结合KDD过程模型和信息扩张机制);发现特征子空间模型DFSSM(用于复杂类型数据挖掘);基于DFSSM的图像挖掘过程模型IMDFSSM。

第四层面(技术方法模块层)。由内在认知机理和新过程模型派生的多个新型技术、方法组成。包括:Maradbcm算法(应用于关联规则的挖掘算法);源于KDD的自动型评价、评测方法(应用于因果型关联规则);基于Web的文本型挖掘算法(基于DFSSM模型);基于相似模式的图像信息挖掘算法IARMA;混沌模式型挖掘算法;KDK归纳挖掘算法(基于知识库中的事实与知识库中的规则);多关系数据挖掘算法等。

第五层面(智能系统模块层)。包含新型结构模型及其相应的技术、方法的新型实用智能系统,它应用于现实的实用系统诱导出的多个基于内在型机理的研究。其中包括:知识发现理论中的专家型系统(Expert Sys-tem based on Knowledge Discobery, ESKD);知识发现理论中的智能决策型支持系统(Intelligent Decision Support System based on Knowledge Discovery, IDSSKD);知识发现理论中的智能型支持预测系统(Intelligent Forecast Support System based on Knowledge Discovery, IFSSKD);基于知识发现理论中的智能型计算机辅助设计、创新系统(Computer Aided Innovation In-telligence System based on Knowledge Discovery, CAIISKD)等。

图2-2 ICCKDSS总体结构图

基于KDTICM理论研发出具有自主知识产权的集成化、组合构件式的大型知识发现软件系统ICCKDSS。ICCKDSS具有多个模块,可以根据需要选取、集成模块,且设计了完善的接口,可以单独系统集成到其他系统,方便功能的扩展和构件的重用。ICCKDSS系统可以面向广泛的信息挖掘问题,如结构化数据挖掘、知识库挖掘、Web挖掘、多媒体信息挖掘(图像、音频、视频、空间数据等)。

KDTICM理论与软件系统ICCKDSS已在农业、铝电解、现代远程教育网、气象、国际商务等诸多领域中应用,通过软件系统验证理论,解决了大量应用领域中难以解决或尚未解决的典型问题。

笔者从事的专题研究,试图扩充已经构建的KDTICM理论的第四层面(技术方法层)。在原有成果的基础上,借鉴其中一些有益的模型、方法的核心思想,研究基于数据发布的隐私保护模型。