第二节 隐私保护
隐私是个人、团体、国家等实体不想被其他个人、团体、国家等实体了解的信息。
一 隐私保护的定义
随着计算机处理能力、存储技术及互联网的快速发展,使得信息的数据化加快。针对数据化信息的隐私保护即保护数据的发布者不希望泄露的敏感信息。
敏感信息包括个人敏感信息和共同敏感信息。[22-23]个人敏感信息是可以确定特定个体或与确定特定个体相关的信息,如个人身份证号码、个人手机号码、个人住址等,也称为敏感数据。共同敏感信息是多个个体共同表现出来的,不想被其他个人、团体、国家等实体了解的信息,如某部门的平均工资、薪酬分布等,也称为敏感规则。
二 隐私的度量
隐私的度量是使用风险泄漏(Disclousure Risk)来描述的。风险泄漏表示数据挖掘者根据发布的数据并综合背景知识可能造成的隐私泄漏概率。背景知识(Background Knowledge)是数据挖掘者通过多种渠道、方式获取的与发布数据相关的信息和数据,在这些数据的配合下进行挖掘可能造成隐私泄露,由于网络的迅猛发展和数据发布的日益普及,背景知识的获取将更为容易和完整。[24-25]
定义2.1设s表示敏感数据或敏感规则,Sk表示数据挖掘者在综合背景知识K后进行数据挖掘操作后泄漏 s,泄漏风险r(s, K)表示如下[24]:
r(s, K)=Pr(Sk)
数据发布者发布数据集D,若所有敏感数据或敏感规则s的泄漏风险均小于阈值α(α∈ [0, 1]),则称数据集D的泄漏风险是α。若α=1,则数据集D是直接发布的数据,没有做任何的隐私保护处理,这样的数据发布对数据拥有者而言是非常危险的;若α =0,则数据集D经过隐私保护处理后能达到无任何隐私被泄露,但因为背景知识的不确定性,从理论上可以存在α = 0,但现实中是不存在的,只能是让α的值尽可能的小。如ℓ-多样(ℓ-diversity)模型的阈值α = ,即各个敏感数据或敏感规则s的泄漏风险均小于。