一种多重数据混淆隐私保护方法及系统、存储介质技术方案

技术编号:27976111 阅读:74 留言:0更新日期:2021-04-06 14:10
本发明专利技术公开了一种多重数据混淆隐私保护方法及系统、存储介质,方法包括:对无类别数据集,计算数据集中样本的每一个特征的信息增益,依据特征的信息增益统计数据热点分布,依据热点分布对样本进行分组聚类以得到多个子类;对于每一个子类,从附近的子类中挑选样本作为多重扰动因子,并利用挑选出的多重扰动因子对该子类中的样本进行扰动,如此实现城市地下基础设施数据混淆隐私保护。

【技术实现步骤摘要】
一种多重数据混淆隐私保护方法及系统、存储介质
本专利技术涉及高效存储系统中的数据安全和隐私保护,尤其涉及一种多重数据混淆隐私保护方法及系统、存储介质。
技术介绍
城市地下基础设施环境具有设备种类多、传感数据量大、结构复杂等特点,传感器及巡检机器人将数据实时传回到控制中心,如何确保这些数据不被恶意利用是一个值得深入探讨的问题。我们常采用一些数据隐私保持方法在保护数据的隐私性同时,确保数据的可用性。经典的随机移动跨类隐私保护方法被广泛用于隐私保护中。随机移动跨类隐私保护法主要思想是采用最近不相关近邻的数据来混淆目标实体,该算法能起到一定的隐私保护的效果,但是主要不足点在于计算效率不高,同时处理后数据的有效性降低明显,这主要是因为其选取的边界扰动因子过大以及没有指导原则所致。认识到随机移动跨类隐私保护算法的不足,为进一步对随机移动跨类隐私保护算法予以改进,有研究者提出了剪枝随机移动跨类隐私保护方法,主要创新点事将剪枝策略融入算法以加速计算。在城市地下基础业务场景中,随机移动跨类隐私保护算法主要不足点不仅仅是以上提到的可用性降低以及计算本文档来自技高网...

【技术保护点】
1.一种多重数据混淆隐私保护方法,其特征在于,所述方法包括:/n对无类别数据集,计算数据集中样本的每一个特征的信息增益,依据特征的信息增益统计数据热点分布,依据热点分布对样本进行分组聚类以得到多个子类;/n对于每一个子类,从附近的子类中挑选样本作为多重扰动因子,并利用挑选出的多重扰动因子对该子类中的样本进行扰动。/n

【技术特征摘要】
1.一种多重数据混淆隐私保护方法,其特征在于,所述方法包括:
对无类别数据集,计算数据集中样本的每一个特征的信息增益,依据特征的信息增益统计数据热点分布,依据热点分布对样本进行分组聚类以得到多个子类;
对于每一个子类,从附近的子类中挑选样本作为多重扰动因子,并利用挑选出的多重扰动因子对该子类中的样本进行扰动。


2.根据权利要求1所述的多重数据混淆隐私保护方法,其特征在于,所述的计算数据集中样本的每一个特征的信息增益,包括:依据数据集中的所有样本的各个特征的具体数据,计算每一个特征的信息熵和条件熵,再根据每一个特征的信息熵和条件熵,计算每一个特征的信息增益。


3.根据权利要求2所述的多重数据混淆隐私保护方法,其特征在于,所述方法中:
依据如下计算式(1)计算每一个特征的信息熵:
H(X)=-∑p(x)logp(x)(1);
依据如下计算式(2)计算每一个特征的条件熵:
H(Y|X)=-∑(p(x)∑p(y|x)logp(y|x))(2);
依据如下计算式(3)计算每一个特征的信息增益:
IG(X)=H(X)-H(Y|X)(3);
以上计算式中,H(X)、H(Y|X)和IG(X)分别表示信息熵、条件熵和信息增益,p(x)表示在数据集中数据属性x在当前特征中出现的概率,p(y|x)表示数据属性x存在时符合条件y的条件概率。


4.根据权利要求1所述的多重数据混淆隐私保护方法,其特征在于,所述的依据特征的信息增益统计数据热点分布,包括:
依据各个特征的信息增益的大小进行排序,选取出排序靠前的若干个特征;
依据选取的特征,计算数据集中的各个样本之间的欧氏距离以形成数据热点分布。


5.根据权利要求1所述的多重数据混淆隐私保护方法,其特征在于,所述的依据热点分布对样本进行分组聚类,包括:
针对每一个样本,为其选取与其欧氏距离最小的样本作为聚类基准;
将具有相同的聚类基准的样本划分到一个分组;
将各个分组中的作为其他分组的聚类基准的样本从分组中删除;
并将各个分组中的样本以及对应的聚类基准共同作为一个子类。


6.根据权利要求5所述的多重数据混淆隐私保护方法,其特征在于,
所述的对于每一个子类,从附近的子类中挑选样本作为多重扰动因子,包括:
将子类排序;
对于非首尾的子类,以该子类为目标子类,将目标子类向前的n个子类以作为挑选对象,如果目标子类向前的子类数量不满n,则将目标子类向前的全部子类全部作为挑选对象,从所有的挑选对象中挑选出与目标子类的聚类基准的欧氏距离最小的样本作为目标子类的第一个多重扰动因子;以及,将目标子类向后的n个子类以作为挑选对象,如果目标子类向后的子类数量不满n,则将目标子类向后的全部子类全部作为挑选对象,从所有的挑选对象...

【专利技术属性】
技术研发人员:齐富民冯圣中方子森
申请(专利权)人:国家超级计算深圳中心深圳云计算中心
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1