数据扰动方法、设备及存储介质技术

技术编号:27009403 阅读:31 留言:0更新日期:2021-01-08 17:16
本发明专利技术公开了一种数据扰动方法、设备及存储介质,包括:确定数据集的范围,计算每个数据节点在所述数据集内的密度;预设密度阈值,根据所述密度阈值和所述数据节点的密度进行划分,以得到高密度节点和低密度节点;将所述高密度节点采用均值替代方法进行计算,得到第一随机扰动数据;将所述低密度节点采用增强加法数据扰动方法进行计算,得到第二随机扰动数据。本发明专利技术通过计算每一个数据节点再数据集内的密度,然后根据不同的密度进行划分成高密度节点和低密度节点,然后对于不同数据节点采用不同的扰动方法,一方面得到符合原始数据的扰动方法,另一方面能够保留原始数据性质。

【技术实现步骤摘要】
数据扰动方法、设备及存储介质
本专利技术涉及数据加密的
,尤其是涉及一种数据扰动方法、设备及存储介质。
技术介绍
随着网络和数据存储技术的快速发展,社会生产和生活中积累了大量的数据,其中数据挖掘主要为从海量数据中获取有价值的知识,但是数据进行挖掘也带来了“保护隐私”的问题,因此数据隐私成为网络时代安全的一个重要标志。其中,数据扰动是数据挖掘中隐私保护的方式之一。目前,传统的数据扰动方法主要为独立噪音方法和相关噪音方法,其中独立噪音方法通过正态分布或均匀分布,直接生成与原始数据无关的扰动;通过加法结构直接添加到原始数据上,从而改变原始数据的值。相关噪声方法通过正态分布生成随机噪音,并通过原始数据的宏观统计性质和特征计算正态分布的相关参数,从而使生成的噪声能一定程度上符合原数据的特点;通过加法结构直接作用于原数据,从而改变原始数据的值并对其产生一定的扰动。但是独立噪音方法选择的扰动生成分布参数与原数据本身无关,生成的扰动与元数据耦合性差且无法根据实际需求改变扰动噪音。然而相关噪声方法选择的统计性质过于宏观,很难探查并表示原数据内部的结构以及不同特征之间关系,因此生成的随机扰动在一定程度上会有较大的偏差。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术实施例提出一种数据扰动方法,能够输出稳健性高的随机扰动数据,且与原始数据耦合性强。本专利技术实施例还提出一种数据扰动设备。本专利技术实施例还提出一种计算机存储介质。第一方面,本专利技术的一个实施例提供了数据扰动方法,包括:确定数据集的范围,计算每个数据节点在所述数据集内的密度;预设密度阈值,根据所述密度阈值和所述数据节点的密度进行划分,以得到高密度节点和低密度节点;将所述高密度节点采用均值替代方法进行计算,得到第一随机扰动数据;将所述低密度节点采用增强加法数据扰动方法进行计算,得到第二随机扰动数据。本专利技术实施例的数据扰动方法至少具有如下有益效果:通过计算每一个数据节点在数据集内的密度,然后根据不同的密度进行划分,形成高密度节点和低密度节点,然后对于不同数据节点采用不同的扰动方法,既能得到符合原始数据的扰动方法,又能够保留原始数据性质。根据本专利技术的另一些实施例的数据扰动方法,所述数据集的范围采用K近邻算法确定。根据本专利技术的另一些实施例的数据扰动方法,计算每个数据节点在所述数据集内的密度,具体包括:计算所述数据集内任意两个所述数据节点之间的拓扑势;计算该所述数据集的总拓扑势;将所述拓扑势和所述总拓扑势进行计算,得到所述数据节点的拓扑熵;根据所述拓扑熵计算出所述数据节点的密度;将集合内的所述数据节点重复上述步骤,得到集合内所有所述数据节点的密度。根据本专利技术的另一些实施例的数据扰动方法,所述计算所述数据集内两个数据节点之间的拓扑势,具体包括:确定影响因子;将所述影响因子、两个所述数据节点之间的网络距离进行计算,得到两个所述数据节点之间的拓扑势。根据本专利技术的另一些实施例的数据扰动方法,所述密度阈值通过人工设置、集合内所有所述数据节点的密度均值以及分位数中的任意一种确定。根据本专利技术的另一些实施例的数据扰动方法,所述确定影响因子具体包括:预设影响范围阈值,根据所述影响范围阈值确定影响因子。根据本专利技术的另一些实施例的数据扰动方法,所述均值替代方法具体包括:所述数据节点的值通过所述K近邻内所述数据节点的均值进行替换。根据本专利技术的另一些实施例的数据扰动方法,所述增强加法数据扰动方法,具体包括:采用正态分布生成随机扰动;根据所述低密度节点的宏观统计性质特征、秘密特征以及非秘密特征之间的关系计算正态分布相关的参数项;采用加法结构将所述低密度节点与所述参数项叠加,以得到第二随机扰动数据。第二方面,本专利技术的一个实施例提供了数据扰动设备,包括:至少一个处理器,以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的数据扰动方法。本专利技术实施例的数据扰动设备至少具有如下有益效果:通过设置处理器执行扰动方法,使得数据扰动方法执行简易。第三方面,本专利技术的一个实施例提供了计算机存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的数据扰动方法。本专利技术实施例的计算机存储介质至少具有如下有益效果:通过计算机可读存储介质执行数据扰动方法,使得数据扰动方法操作简易。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明图1是本专利技术实施例中数据扰动方法的一具体实施例流程示意图;图2是图1中步S100的一具体实施例流程示意图;图3是图2中步S120的一具体实施例流程示意图。具体实施方式以下将结合实施例对本专利技术的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本专利技术的目的、特征和效果。显然,所描述的实施例只是本专利技术的一部分实施例,而不是全部实施例,基于本专利技术的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本专利技术保护的范围。在本专利技术实施例的描述中,如果涉及到“若干”,其含义是一个以上,如果涉及到“多个”,其含义是两个以上,如果涉及到“大于”、“小于”、“超过”,均应理解为不包括本数,如果涉及到“以上”、“以下”、“以内”,均应理解为包括本数。如果涉及到“第一”、“第二”,应当理解为用于区分技术特征,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。对于隐私保护数据发布研究中,最常用的是接于数据失真技术。数据失真技术通过扰动修改原始数据来实现隐私保护和信息隐藏,使扰动后的数据同时满足以下条件:①攻击者无法找到真正的原始数据,即攻击者通过扰动后的数据不能恢复或重构真实和完全的原始数据。②扰动后的数据的聚类可用性保持不变,即从原始数据中和从发布后数据中得到的聚类信息是相同的。其中,数据失真技术相当于进行数据扰动,以得到扰动后的数据。目前进行数据扰动常见的方法主要有独立噪音方法、相关噪声方法,独立噪声方法通过正态分布或均匀分布,直接生成与原始数据无关的扰动,通过加法结构将与原始数据无关的扰动添加到原始数据上,从而改变原始数据的值。但是独立噪声方法由于生成的扰动和原始数据本身无关,则生成的扰动和原始数据耦合性差且无法根据原始数据实际改变扰动噪音。而相关噪声方法通过正态分布生成随机噪声,并通过原始数据的宏观统计性质和特征计算正态分布的相关参数,使生成的噪音能一定程本文档来自技高网...

【技术保护点】
1.数据扰动方法,其特征在于,包括:/n确定数据集的范围,计算每个数据节点在所述数据集内的密度;/n预设密度阈值,根据所述密度阈值和所述数据节点的密度进行划分,以得到高密度节点和低密度节点;/n将所述高密度节点采用均值替代方法进行计算,得到第一随机扰动数据;/n将所述低密度节点采用增强加法数据扰动方法进行计算,得到第二随机扰动数据。/n

【技术特征摘要】
1.数据扰动方法,其特征在于,包括:
确定数据集的范围,计算每个数据节点在所述数据集内的密度;
预设密度阈值,根据所述密度阈值和所述数据节点的密度进行划分,以得到高密度节点和低密度节点;
将所述高密度节点采用均值替代方法进行计算,得到第一随机扰动数据;
将所述低密度节点采用增强加法数据扰动方法进行计算,得到第二随机扰动数据。


2.根据权利要求1所述的数据扰动方法,其特征在于,所述数据集的范围采用K近邻算法确定。


3.根据权利要求2所述的数据扰动方法,其特征在于,计算每个数据节点在所述数据集内的密度,具体包括:
计算所述数据集内任意两个所述数据节点之间的拓扑势;
计算该所述数据集的总拓扑势;
将所述拓扑势和所述总拓扑势进行计算,得到所述数据节点的拓扑熵;
根据所述拓扑熵计算出所述数据节点的密度;
将集合内的所述数据节点重复上述步骤,得到集合内所有所述数据节点的密度。


4.根据权利要求3所述的数据扰动方法,其特征在于,所述计算所述数据集内任意两个所述数据节点之间的拓扑势,具体包括:
确定影响因子;
将所述影响因子、两个所述数据节点之间的网络距离进行计算,得到两个所述数据节点之间的拓扑势。


5.根据权利要求1至4任一项所述的数据扰动方法,其特征在于,所述密度阈值通过人...

【专利技术属性】
技术研发人员:王菊婷陈伟坚李想
申请(专利权)人:清华伯克利深圳学院筹备办公室
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1