【技术实现步骤摘要】
一种在本地差分隐私下基于属性分层的频繁项集挖掘方法
[0001]本专利技术涉及一种面向本地差分隐私保护的频繁项集挖掘方法,属于信息安全
技术介绍
[0002]频繁项集挖掘是数据挖掘技术中的一个关键问题,频繁项集挖掘的目的是通过找出那些经常一起出现的项目的集合,来揭示数据之间隐藏的关联,同时也可以为关联规则的挖掘打下基础。通过挖掘频繁项集,商家可以发现商品和商品之间的联系,进而预测顾客的购买习惯,提高自身的服务质量。但是,在商家收集用户信息的过程中,用户的一些购买记录、浏览偏好等敏感信息有泄露的风险。
[0003]近年来,为了保护用户的隐私,差分隐私作为一种基于数据变化的先进隐私保护技术被提出。中心化差分隐私需要一个可信的第三方服务器来接收用户发送来的原始数据,但是在现实世界中,第三方服务器往往是不可信的,而且很容易遭受敌手的攻击,因此用户的隐私还是存在泄露的风险。本地差分隐私不需要一个可信的第三方数据收集者,每一个用户独自在本地对自己的原始数据进行扰动,然后将扰动后的数据发送给数据收集者,由收集方从众多用户 ...
【技术保护点】
【技术特征摘要】
1.一种在本地差分隐私下基于属性分层的频繁项集挖掘方法,其特征在于,包括以下步骤:步骤1:服务器将总隐私预算进行分割。假设属性的总层数为m,总隐私预算∈被划分为m层的m个部分,其中每个∈
i
用于第i层的扰动。在本方案中,总隐私预算∈被平均分配,每一层具有相同的平均隐私预算步骤2:服务器根据上一层的频繁项集挖掘结果对用户进行分组。在本方案中,由于第i层一共产生了k
i
个频繁项集,所有用户被随机地均分成了k
i
组,每组用户都参与(i+1)层一个独立的频繁项集挖掘过程;在每一层的频繁项集挖掘过程中,针对每一组用户:步骤3:每个用户先计算自己拥有的有效项目集,并进行填充采样操作,得到一个项目;步骤4:用户根据公开的属性分层树状图,将通过抽样得到的项目向上索引到该层得到属性值,之后对其进行扰动,并将扰动值提交给服务器;步骤5:服务器根据用户发来的扰动值去估计每个属性的频率,然后根据频繁项去构建频繁项集候选集合S,并将S发送给用户;步骤6:用户根据自身的有效项目集去选择候选集合S中自己拥有的项集(可以有多个),然后对其进行填充采样操作,得到一个项集,之后对该项集进行扰动,并将扰动结果发送给服务器;步骤7:服务器对候选集中项集的频率进行估计,并选出top
‑
k个项集作为频繁项集挖掘结果。2.根据权利要求1所述的一种在本地差分隐私下基于属性分层的频繁项集挖掘方法,其特征在于,步骤3包括如下过程:对于第i层的第j组用户Group
ij
,其任务是去挖掘在给定项集IS范围内下一层小类的频繁项集,其中IS是第i
‑
1层挖掘出的某个频繁项集结果。在第i层挖掘过程中,每一个用户都被分配了∈
i
的隐私预算。首先,对于Group
ij
中的每个用户,他们从自身的项目集中去寻找在IS范围内的那部分项目,并重新构成有效项目集。如果一个用户项目集中的所有项目都不在IS范围内,即有效项目集为空,那么该用户就被认为是一个无效的用户,无效用户无需进行之后的一系列操作。本发明基于用户剪枝的思想,本层的频繁项集只考虑由在给定上一层的某个频繁项集IS范围内的频繁项组成,而不会考虑在范围之外的项目。由于用户有效项目集中的项目数量往往不同,当前的频率估计机制无法较好地解决该问题,因此本发明对用户的有效项目集进行了填充采样(padding
‑
and
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。