一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统技术方案

技术编号:33073586 阅读:15 留言:0更新日期:2022-04-15 10:08
本发明专利技术公开了一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统,其方法为:根据大规模样本数据集,通过计算信息熵和信息增益度,选择信息增益度最大的敏感属性作为待保护的敏感属性:对移动终端应用的动态隐私敏感数据进行局部保护:获取移动终端应用待发布的动态隐私敏感数据,对其中待保护的敏感属性数据进行差分隐私加噪处理,其他敏感属性数据不变,得到局部保护的动态隐私敏感数据并向外发布;数据挖掘以获取分类:通过预建的决策树对发布的动态隐私敏感数据进行挖掘,得到相应的分类;其中,所述决策树根据敏感数据集构建得到。本发明专利技术可以有效抵抗攻击者拥有背景知识的攻击,并且能在保护隐私的前提下提高数据的应用价值。高数据的应用价值。高数据的应用价值。

【技术实现步骤摘要】
一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统


[0001]本专利技术属于信息数据处理
,具体涉及一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统。

技术介绍

[0002]传统的基于分组的隐私保护模型的安全性与攻击者所掌握的背景知识有关。而所有可能的背景知识其实很难被充分定义,因此存在攻击漏洞,无法抵抗攻击者拥有最大背景知识的条件下的各种形式的攻击。并且,传统的隐私保护模型无法提供一种有效且严格的方法来证明其隐私保护水平,因此当模型参数改变时,通常无法对隐私保护水平进行定量分析。而差分隐私保护方案,已经证明可以通过对敏感数据增加噪声干扰,有效抵抗攻击者拥有最大背景知识的条件下的各种形式的攻击,更好的保证用户的敏感隐私不被泄露。然而,经过差分隐私加噪处理的敏感数据,直接影响了数据价值的挖掘,降低了数据的可用性。

技术实现思路

[0003]基于现有技术对用户隐私数据差分隐私后因为挖掘效率不高导致的数据可用性较低的问题,本专利技术提供一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统,在提高数据安全性的同时,又有效解决数据被保护后可用性差的问题,更好的实现了用户数据的价值挖掘。
[0004]为实现上述技术目的,本专利技术采用如下技术方案:
[0005]一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法,包括以下步骤:
[0006]步骤1,通过样本数据集确定待保护敏感属性:
[0007]步骤1.1,获取超大规模移动终端应用用户的动态隐私敏感数据和已知的分类数据,构成包括分类属性和若干敏感属性的敏感数据集;
[0008]步骤1.2,根据敏感数据集的分类属性值计算敏感数据集的信息熵,并通过计算敏感数据集每个敏感属性的期望信息熵,从而得到每个敏感属性的信息增益度;
[0009]步骤1.3,选择信息增益度最大的敏感属性,作为敏感数据集的最敏感属性,即为待保护敏感属性;
[0010]步骤2,对移动终端应用的动态隐私敏感数据进行局部保护:获取移动终端应用待发布的动态隐私敏感数据,对其中待保护的敏感属性数据进行差分隐私加噪处理,其他敏感属性数据不变,得到局部保护的动态隐私敏感数据并向外发布;
[0011]步骤3,数据挖掘以获取分类:通过预建的决策树对发布的动态隐私敏感数据进行挖掘,得到相应的分类;其中,所述决策树根据敏感数据集构建得到。
[0012]进一步的,所述决策树的构建方法为:
[0013]步骤3.01,将步骤1得到的原始敏感数据集中信息增益度最大的敏感属性作为根节点;
[0014]步骤3.02,根据原始敏感数据集在根节点的不同属性值,将原始的敏感数据集分解为与根节点属性值对应的多个数据子集;
[0015]步骤3.03,针对每个数据子集:若数据子集中的分类属性值均相同,则将该分类属性值作为上一级节点的子节点,且作为叶子节点,终止对该数据子集继续分解;否则,按照步骤1.2相同的方法计算数据子集中每个敏感属性的信息增益度,取其中增益度最大的敏感属性作为上一级节点的子节点;
[0016]步骤3.04,对每个子节点对应的数据子集:根据数据子集在该子节点的不同属性值,将该数据子集分解为与该子节点属性值对应的多个数据子集,然后返回执行步骤3.03,直到所有节点均为叶子节点,或者数据子集中只有1个敏感属性;
[0017]若数据子集中只有1个敏感属性,则使用多数表决的方式将该节点转换成叶子节点。
[0018]进一步的,敏感数据集和步骤3中分解得到的各数据子集,其信息熵的计算公式为:
[0019][0020]式中,X为数据集用于计算信息熵的分类属性,H(X)为根据数据集分类属性X计算得到的信息熵,p(x)表示数据集中分类属性取值X=x的数量在所有取值数量中的占比;
[0021]每个敏感属性T的期望信息熵的计算公式为:
[0022][0023]式中,H(X|T)为敏感属性T的期望信息熵,H(T|X=x)为数据集的敏感属性T在分类属性取值X=x的条件熵;
[0024]每个敏感属性T的增益计算方法为:
[0025]Gain(T)=H(X)

H(X|T);
[0026]式中,Gain(T)为敏感属性T的增益。
[0027]进一步的,通过增加局部敏感度的平滑上界与局部敏感度确定噪声量,然后利用拉普拉斯机制对待保护的敏感属性数据进行差分隐私加噪处理。
[0028]进一步的,局部敏感度的计算过程为:
[0029][0030]式中,D为敏感数据集,D'为D的邻近数据集;f为查询函数,LS
f
(D)为查询函数f的局部敏感度。
[0031]一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘系统,包括:待保护敏感属性确定模块、隐私加噪处理模块和数据挖掘模块;
[0032]所述待保护敏感属性确定模块,用于通过样本数据集确定待保护敏感属性,具体用于:(1)获取超大规模移动终端应用用户的动态隐私敏感数据和已知的分类数据,构成包括分类属性和若干敏感属性的敏感数据集;(2)根据敏感数据集的分类属性值计算敏感数据集的信息熵,并通过计算敏感数据集每个敏感属性的期望信息熵,从而得到每个敏感属
性的信息增益度;(3)选择信息增益度最大的敏感属性,作为敏感数据集的最敏感属性,即为待保护敏感属性;
[0033]所述隐私加噪处理模块,用于对移动终端应用的动态隐私敏感数据进行局部保护,具体用于:获取移动终端应用待发布的动态隐私敏感数据,对其中待保护的敏感属性数据进行差分隐私加噪处理,其他敏感属性数据不变,得到局部保护的动态隐私敏感数据并向外发布;
[0034]所述数据挖掘模块,包括预建的决策树,所述决策树用于对发布的动态隐私敏感数据进行挖掘,得到相应的分类;其中,所述决策树根据敏感数据集构建得到。
[0035]有益效果
[0036]本专利技术提供的一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法和系统,首先,面向超大规模移动应用用户的动态隐私敏感数据,计算信息熵和信息增益度,通过信息量与挖掘效率的对比筛选出敏感数据和非敏感数据;其次,基于数据加噪、拉普拉斯机制对敏感数据进行差分隐私保护;最后基于决策树技术进行高效安全的数据挖掘。因此,本专利技术不仅可以有效抵抗攻击者拥有最大背景知识的条件下的各种形式的攻击,并且能在保护隐私的前提下提高数据的应用价值。
附图说明
[0037]图1是本专利技术实施例所述方法的步骤示意图;
[0038]图2是本专利技术实施例所述方法步骤1的示意图;
[0039]图3是专利技术实施例所述方法决策树的构建示意图。
具体实施方式
[0040]下面对本专利技术的实施例作详细说明,本实施例以本专利技术的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本专利技术的技术方案作进一步解释说明。
[0041]本实施例提供一种基于移动用户本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于移动用户动态敏感数据的差分隐私保护与数据挖掘方法,其特征在于,包括以下步骤:步骤1,通过样本数据集确定待保护敏感属性:步骤1.1,获取超大规模移动终端应用用户的动态隐私敏感数据和已知的分类数据,构成包括分类属性和若干敏感属性的敏感数据集;步骤1.2,根据敏感数据集的分类属性值计算敏感数据集的信息熵,并通过计算敏感数据集每个敏感属性的期望信息熵,从而得到每个敏感属性的信息增益度;步骤1.3,选择信息增益度最大的敏感属性,作为敏感数据集的最敏感属性,即为待保护敏感属性;步骤2,对移动终端应用的动态隐私敏感数据进行局部保护:获取移动终端应用待发布的动态隐私敏感数据,对其中待保护的敏感属性数据进行差分隐私加噪处理,其他敏感属性数据不变,得到局部保护的动态隐私敏感数据并向外发布;步骤3,数据挖掘以获取分类:通过预建的决策树对发布的动态隐私敏感数据进行挖掘,得到相应的分类;其中,所述决策树根据敏感数据集构建得到。2.根据权利要求1所述的方法,其特征在于,所述决策树的构建方法为:步骤3.01,将步骤1得到的原始敏感数据集中信息增益度最大的敏感属性作为根节点;步骤3.02,根据原始敏感数据集在根节点的不同属性值,将原始的敏感数据集分解为与根节点属性值对应的多个数据子集;步骤3.03,针对每个数据子集:若数据子集中的分类属性值均相同,则将该分类属性值作为上一级节点的子节点,且作为叶子节点,终止对该数据子集继续分解;否则,按照步骤1.2相同的方法计算数据子集中每个敏感属性的信息增益度,取其中增益度最大的敏感属性作为上一级节点的子节点,或者数据子集中只有1个敏感属性;若数据子集中只有1个敏感属性,则使用多数表决的方式将该节点转换成叶子节点;步骤3.04,对每个子节点对应的数据子集:根据数据子集在该子节点的不同属性值,将该数据子集分解为与该子节点属性值对应的多个数据子集,然后返回执行步骤3.03,直到所有节点均为叶子节点。3.根据权利要求1所述的方法,其特征在于,敏感数据集和步骤3中分解得到的各数据子集,其信息熵的计算公式为:...

【专利技术属性】
技术研发人员:罗恩韬
申请(专利权)人:湖南科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1