数据扰动方法、设备及存储介质技术

技术编号：27009403 阅读：31 留言：0更新日期：2021-01-08 17:16

本发明专利技术公开了一种数据扰动方法、设备及存储介质，包括：确定数据集的范围，计算每个数据节点在所述数据集内的密度；预设密度阈值，根据所述密度阈值和所述数据节点的密度进行划分，以得到高密度节点和低密度节点；将所述高密度节点采用均值替代方法进行计算，得到第一随机扰动数据；将所述低密度节点采用增强加法数据扰动方法进行计算，得到第二随机扰动数据。本发明专利技术通过计算每一个数据节点再数据集内的密度，然后根据不同的密度进行划分成高密度节点和低密度节点，然后对于不同数据节点采用不同的扰动方法，一方面得到符合原始数据的扰动方法，另一方面能够保留原始数据性质。

全部详细技术资料下载

【技术实现步骤摘要】
数据扰动方法、设备及存储介质
本专利技术涉及数据加密的
，尤其是涉及一种数据扰动方法、设备及存储介质。
技术介绍
随着网络和数据存储技术的快速发展，社会生产和生活中积累了大量的数据，其中数据挖掘主要为从海量数据中获取有价值的知识，但是数据进行挖掘也带来了“保护隐私”的问题，因此数据隐私成为网络时代安全的一个重要标志。其中，数据扰动是数据挖掘中隐私保护的方式之一。目前，传统的数据扰动方法主要为独立噪音方法和相关噪音方法，其中独立噪音方法通过正态分布或均匀分布，直接生成与原始数据无关的扰动；通过加法结构直接添加到原始数据上，从而改变原始数据的值。相关噪声方法通过正态分布生成随机噪音，并通过原始数据的宏观统计性质和特征计算正态分布的相关参数，从而使生成的噪声能一定程度上符合原数据的特点；通过加法结构直接作用于原数据，从而改变原始数据的值并对其产生一定的扰动。但是独立噪音方法选择的扰动生成分布参数与原数据本身无关，生成的扰动与元数据耦合性差且无法根据实际需求改变扰动噪音。然而相关噪声方法选择的统计性质过于宏观，很难探查并表示原数据内部的结构以及不同特征之间关系，因此生成的随机扰动在一定程度上会有较大的偏差。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此，本专利技术实施例提出一种数据扰动方法，能够输出稳健性高的随机扰动数据，且与原始数据耦合性强。本专利技术实施例还提出一种数据扰动设备。本专利技术实施例还提出一种计算机存储介质。第一方面，本专利技术的一个...

【技术保护点】
1.数据扰动方法，其特征在于，包括：/n确定数据集的范围，计算每个数据节点在所述数据集内的密度；/n预设密度阈值，根据所述密度阈值和所述数据节点的密度进行划分，以得到高密度节点和低密度节点；/n将所述高密度节点采用均值替代方法进行计算，得到第一随机扰动数据；/n将所述低密度节点采用增强加法数据扰动方法进行计算，得到第二随机扰动数据。/n

【技术特征摘要】
1.数据扰动方法，其特征在于，包括：
确定数据集的范围，计算每个数据节点在所述数据集内的密度；
预设密度阈值，根据所述密度阈值和所述数据节点的密度进行划分，以得到高密度节点和低密度节点；
将所述高密度节点采用均值替代方法进行计算，得到第一随机扰动数据；
将所述低密度节点采用增强加法数据扰动方法进行计算，得到第二随机扰动数据。

2.根据权利要求1所述的数据扰动方法，其特征在于，所述数据集的范围采用K近邻算法确定。

3.根据权利要求2所述的数据扰动方法，其特征在于，计算每个数据节点在所述数据集内的密度，具体包括：
计算所述数据集内任意两个所述数据节点之间的拓扑势；
计算该所述数据集的总拓扑势；
将所述拓扑势和所述总拓扑势进行计算，得到所述数据节点的拓扑熵；
根据所述拓扑熵计算出所述数据节点的密度；
将集合内的所述数据节点重复上述步骤，得到集合内所有所述数据节点的密度。

4.根据权利要求3所述的数据扰动方法，其特征在于，所述计算所述数据集内任意两个所述数据节点之间的拓扑势，具体包括：
确定影响因子；
将所述影响因子、两个所述数据节点之间的网络距离进行计算，得到两个所述数据节点之间的拓扑势。

5.根据权利要求1至4任一项所述的数据扰动方法，其特征在于，所述密度阈值通过人...

【专利技术属性】
技术研发人员：王菊婷，陈伟坚，李想，
申请(专利权)人：清华伯克利深圳学院筹备办公室，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人