【技术实现步骤摘要】
关系事务数据发布的隐私保护方法
本专利技术涉及数据隐私保护
,具体一种涉及关系事务数据发布的隐私保护方法。
技术介绍
随着愈来愈多的商务和医疗数据的发布,通过对这些数据进行数据挖掘和数据分析等工作,在商业营销、群体行为趋势、疾病预测和科学研究等方面,具有极大参考和实际意义,带来了巨大的经济和社会收益。然而这些研究与个人信息息息相关,与之带来的隐私问题日益严重,是如今信息时代的热门话题。虽然数据发布技术使得数据交换和共享变得高效和便捷,但是如何针对其中的隐私泄露问题进行保护成为了研究的热门。当今的商务和医疗数据中需要发布个人的关系数据和事务数据的联合数据集,不仅仅是针对单一的数据进行发布,我们称之为关系事务数据集发布的隐私保护。然而保护这样的数据集的隐私和研究效用是如今的研究挑战。在现有的隐私保护研究中,大多数的研究主要针对单个数据类型的数据集上,但是对于关系事务的联合数据集来说,并不能满足隐私保护的要求,因为敌手的背景知识包含关系属性和事务属性,更容易造成身份泄露,推测出敏感属性。现有的匿名模型(k,km)-匿名,即阻止知道个人关系属性和至多m项的事务属性的 ...
【技术保护点】
关系事务数据发布的隐私保护方法,其特征是,包括步骤如下:步骤1、初始化数据,将原始表数据进行初始化聚类;步骤1.1、将原始数据集中含有敏感属性的记录和不含有敏感属性的记录区分记录;步骤1.2、根据给定的k值和原始数据集中记录的总条数确定分组数;步骤1.3、将含有敏感属性的记录和不含有敏感属性的记录采用关系属性概化的最小信息损失度量的聚类方法均分到各个分组中,使得每个分组的记录条数至少有k条,至多不超过2k‑1条;步骤2、对初始化聚类之后的分组采用相对最优合并策略进行聚类合并概化,得到最终合并概化好的数据集;步骤3、利用ρ‑不确定性匿名模型对最终合并概化好的数据集进行自顶向下 ...
【技术特征摘要】
1.关系事务数据发布的隐私保护方法,其特征是,包括步骤如下:步骤1、初始化数据,将原始表数据进行初始化聚类;步骤1.1、将原始数据集中含有敏感属性的记录和不含有敏感属性的记录区分记录;步骤1.2、根据给定的k值和原始数据集中记录的总条数确定分组数;步骤1.3、将含有敏感属性的记录和不含有敏感属性的记录采用关系属性概化的最小信息损失度量的聚类方法均分到各个分组中,使得每个分组的记录条数至少有k条,至多不超过2k-1条;步骤2、对初始化聚类之后的分组采用相对最优合并策略进行聚类合并概化,得到最终合并概化好的数据集;步骤3、利用ρ-不确定性匿名模型对最终合并概化好的数据集进行自顶向下的概化和全局抑制,使得直到每个分组内含敏感属性记录的置信度均小于设定阈值ρ,从而得到最终匿名发布数据;其中,k为大于1的整数,ρ为大于0且小于1的小数。2.根据权利要求1所述的关系事务数据发布的隐私保护方法,其特征是,步骤1.1中,需要先对原始数据集中的记录进行简单匿名后,再在对原始数据集中含有敏感属性的记录和不含有敏感属性的记录区分记录。3.根据权利要求1所述的关系事务数据发布的隐私保护方法,其特征是,步骤1.2中,分组数等于原始数据集中记录的总条数除以k的商再取整。4.根据权利要求1所述的关系事务数据发布的隐私保护方法,其特征是,步骤2中的具体子步骤为:步骤2.1、从初始化聚类后形成的当前数据集中随机选择1个分组作为当前种子分组;步骤2.2、逐一将当前数据集中未进行过合并的各个分组与当前种子分组进行合并,并计算各个合并分组中的关系属性概化后的合并分组概化信息损失度量;步骤2.3、选择合并分组概化信息损失度量最小的合并方式,并将该合并方式所对应的数据集作为中间数据集,并计算中间数据集中所有分组中的关系属性概化后的平均概化信息损失度量;步骤2.4、判断平均概化信息损失度量是否超过设定阈值δ:若没有超过,则该合并方式成立,将中间数据集作为当前数据集,并从此当前数据集未进行过合并的分组中再随机选择1个分组作为当前种子分组,并返回步骤2.2,直到当前数据集不存在未进行过合并的分组,并转至步骤2.5;如果超过,则该合并方式不成立,并转至步骤2.5;步骤2.5、将当前数据集作为最终数据集,并对最终数据集中每个分组没有进行概化的关系属性进行概化,得到最终合并概化好的数据集。5.根据权利要求1所述的关系事务数据发布的隐私...
【专利技术属性】
技术研发人员:王金艳,周思明,李先贤,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。