一种隐私保护的云边协同的频繁项目挖掘方法技术

技术编号:39401596 阅读:8 留言:0更新日期:2023-11-19 15:54
本发明专利技术一种隐私保护的云边协同的频繁项目挖掘方法,包括以下步骤:将真实项目域编码为虚拟项目域;云边端协同挖掘k1个频繁虚拟项目;基于频繁虚拟项目构建云端频率表征矩阵;将云端频率表征矩阵和所有边端进行分组并配对;各边端基于所在边端组与对应频率子矩阵获得信息表征矩阵,并将信息表征矩阵进行向量化表征;各边端对本地向量进行扰动获得扰动值及扰动序号;云端聚合各边端组的扰动值及扰动序号,获得对应的频率恢复子矩阵,进而获得频率恢复矩阵;云边端协同融合隐私保护技术挖掘频繁项目。本发明专利技术采用本地差分隐私技术,在云端不可信的情况下,保证边端数据的隐私性的同时实现安全可靠的云边端协同的频繁项目挖掘。实现安全可靠的云边端协同的频繁项目挖掘。实现安全可靠的云边端协同的频繁项目挖掘。

【技术实现步骤摘要】
一种隐私保护的云边协同的频繁项目挖掘方法


[0001]本专利技术涉及数据隐私保护和数据挖掘领域,包括本地差分隐私、频繁项目挖掘等方法。具体涉及一种隐私保护的云边协同的频繁项目挖掘方法。

技术介绍

[0002]随着数字经济的全球化推进,数据已成为影响世界各国竞争的战略性资源,能够充分发挥数据经济价值和战略意义的数据挖掘技术蓬勃发展。数据挖掘已被广泛研究并应用于现实应用中,企业通过挖掘用户数据中的价值信息,来提供更加个性化、智能化的服务。然而,传统的数据挖掘方案面临的隐私泄露风险成为制约数据价值释放的重要短板。一方面,由于传统的解决方案采用了收集和分析范式,需要边端上传真实数据到集中云端进行汇聚分析,所以在数据的收集、存储、分析处理的过程中潜在着边端隐私泄漏的风险。因此,在严格遵守隐私保护法律的前提下,研究隐私保护的数据挖掘方法,能有效缓解数据可用性和隐私性之间尚存的矛盾关系,并且对保障企业的利益和客户的隐私安全有着重大的现实意义。
[0003]近年来,差分隐私DP日益成为隐私保护的标准范式。该模型通过严格的数学证明,保证了攻击者无法根据已知的边端信息推测出未知的边端信息。DP不需要考虑攻击者的背景知识和攻击模型的特点,能够在敌手具有全部背景知识的情况下防御任何敌手。传统的差分隐私机制依赖一个可信的云端聚合边端的原始数据,然后将干扰过的聚合信息发布。然而,在现实世界中很难找到一个完全可信的云端来管理边端的数据。为此,本地差分隐私LDP出现了,相较于传统的差分隐私,LDP可以通过不可信的云端聚合分布式边端在本地扰动过的私有数据,分析得到总体数据的统计信息。通常,LDP技术包括一个扰动算法和一个聚合算法。扰动算法扰动私有数据以确保隐私,并在每个边端响应云端的查询时本地使用。聚合算法由云端用来从所有边端提供的扰动响应中提取全局知识。
[0004]频繁项目挖掘的任务目标是找到频率超过阈值或者排名top

k的项目。隐私保护的频繁项挖掘是数据挖掘中重要的安全研究问题,其应用包括趋势监测和营销分析等。例如,谷歌推出的RAPPOR使用bloom过滤器来识别频繁访问的热门网站,苹果推出SFP方法以识别用户频繁使用的表情。然而,近年来提出的满足本地差分隐私的解决方案仅仅支持维度较低的频繁项目挖掘任务。其大致可以分为以下四类方法,包括基于频率估计协议的方法,基于划分的方法,基于树的方法,基于采样的方法。其中,目前只有基于采样的方法能够适用于数据大小异构的场景。
[0005]基于采样的方法能适用于边端数据大小异构的场景。其思想是将边端的数据数量统一成m个。即如果边端拥有的项数超过m 个,则边端数据将被截断为 m个;否则,通过虚拟项填充原始数据将项数扩充为m 个。然后,每个边端随机抽取一个项目进行报告。为了提高准确性,有人提出采取两阶段机制的LDPMiner方法用于挖掘频繁项目。在第一阶段,使用一部分隐私预算执行sample

Hist来确定频繁项目的候选集。剩余预算用于在第二阶段执行sampleRAPPOR以计算候选集中项目的频率。也有人基于LDPMiner方法的思想,结合采样隐
私放大的特性,提出了用于集值数据的自适应的频率估计协议PSFO。在此基础上,其进一步提出了频繁项目解决方案SVIM方法。该方法尽管适用于边端数据大小异构的场景但是在数据维度较大的情况下准确率受限。因此,亟须研究一种不仅适用于边端大小异构并且能在高维场景下保证准确性的隐私保护的频繁项目挖掘方法。

技术实现思路

[0006]本专利技术的目的在于:在保护各边端隐私的前提下,云端从其下属边端同类型的项目中挖掘出使用频率高的频繁项目,为实现上述目的,本专利技术提供如下技术方案:一种隐私保护的云边协同的频繁项目挖掘方法,包括以下步骤:S1、各边端拥有的真实项目分别构成边端项目域,云端汇集其下属边端所拥有的所有真实项目,构成云端项目域,其中,云端项目域包含d个真实项目;云端将云端项目域编码为虚拟项目域,其中,虚拟项目域包含f个虚拟项目;并将云端项目域与虚拟项目域的对应关系统一至各边端;S2、云端和各边端协同采用集值型数据项目挖掘SVIM协议估计虚拟项目域中各虚拟项目的频率;依据虚拟项目域中各虚拟项目的估计频率获得由预设数量k1个高频率虚拟项目构成集合Y;进而基于集合Y中的虚拟项目及其估计频率,获得云端频率表征矩阵;S3、云端将云端频率表征矩阵的行和列都平均分成m份,其中,m为k1的因数,即将云端频率表征矩阵均分为个不相交的频率子矩阵,表示第p行第q列个子矩阵;云端将其下属边端随机分为个边端组,并将频率子矩阵与边端组进行一对一不重复配对,形成个频率子矩阵与边端组的组合;S4、各边端组中的边端根据所在边端组对应的频率子矩阵以及本地拥有的真实项目分别获得各自的本地信息表征矩阵,表示该边端组中第j个边端的本地信息表征矩阵;S5、各边端分别基于矩阵分解将本地信息表征矩阵进行向量化表征,并分别从各自的向量中随机采样扰动序号为l的元素进行扰动得到扰动值,各边端将各自的扰动序号l及扰动值上传给云端;S6、云端以边端组为单位聚合每组边端上传的扰动值及扰动序号l,分别获得个边端组的平均向量,根据各边端组的平均向量分别获得对应的频率恢复子矩阵,进而获得频率恢复矩阵;S7、云端从频率恢复矩阵中选择k2个高频率元素,按照步骤S1中编码的规则,分别将k2个高频率元素解码为对应的真实项目,获得k2个真实项目构成的候选集,其中,k2是预设值;S8、云端与各边端针对候选集中的k2个真实项目采用集值型数据项目挖掘SVIM协议估计候选集中的每个真实项目的频率,进而从中挖掘出预设数量k3个高频率的频繁项目;其中,k3是预设值,k3<k2。
[0007]进一步地,前述的S1中将云端项目域编码为虚拟项目域的具体过程包含:S11、通过云端项目域的值域大小d计算出虚拟项目域的值域大小f,计算公式为
;S12、构造阶数的编码矩阵,编码矩阵的行索引与列索引都设为,将云端项目域中的所有真实项目依次排列为编码矩阵的元素,即将云端项目域中的所有真实项目编码为其对应的虚拟项目对;S13、云端将构成的集合记为虚拟项目域。
[0008]进一步地,前述的S2具体包含:S21、各边端从其拥有的真实项目对中随机采样一个私有真实项目,针对该私有真实项目所对应的虚拟项目对,遵循集值型数据项目挖掘SVIM协议的扰动机制对该虚拟项目对进行扰动,获得扰动值,并发送给云端;云端收集各边端发送的扰动值,聚合估计出虚拟项目域中各虚拟项目的估计频率;S22、将虚拟项目域中各虚拟项目的估计频率从高到低进行排序,获取前k1个高频虚拟项目构成集合Y,其中,k1为预设值且k1<f;S23、基于集合Y中k1个虚拟项目,云端构建一个阶数的云端频率表征矩阵,云端频率表征矩阵的行索引和列索引分别对应集合Y中k1个虚拟项目,云端频率表征矩阵中的 k
12
个元素分别代表行索引虚拟项目与列索引虚拟项目组成的虚拟项目对的估计频率;S24、根据集合Y中k1个虚拟项目的估计频率,采用如下公式初始化云端频率表征矩阵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种隐私保护的云边协同的频繁项目挖掘方法,用于在保护各边端隐私的前提下,云端从其下属边端同类型的项目中挖掘出使用频繁的高频项目,其特征在于,包括以下步骤:S1、各边端拥有的真实项目分别构成边端项目域,云端汇集其下属边端所拥有的所有真实项目,构成云端项目域,其中,云端项目域包含d个真实项目;云端将云端项目域编码为虚拟项目域,其中,虚拟项目域包含f个虚拟项目;并将云端项目域与虚拟项目域的对应关系统一至各边端;S2、云端和各边端协同采用集值型数据项目挖掘SVIM协议估计虚拟项目域中各虚拟项目的频率;依据虚拟项目域中各虚拟项目的估计频率获得由预设数量k1个高频率虚拟项目构成集合Y;进而基于集合Y中的虚拟项目及其估计频率,获得云端频率表征矩阵 ;S3、云端将云端频率表征矩阵的行和列都平均分成m份,其中,m为k
1 的因数,即将云端频率表征矩阵均分为 个不相交的频率子矩阵,表示第p行第q列个子矩阵;云端将其下属边端随机分为个边端组,并将频率子矩阵与边端组进行一对一不重复配对,形成个频率子矩阵与边端组的组合;S4、各边端组中的边端根据所在边端组对应的频率子矩阵以及本地拥有的真实项目分别获得各自的本地信息表征矩阵, 表示该边端组中第j个边端的本地信息表征矩阵;S5、各边端分别基于矩阵分解将本地信息表征矩阵进行向量化表征,并分别从各自的向量中随机采样扰动序号为l的元素进行扰动得到扰动值,各边端将各自的扰动序号l 及扰动值上传给云端;S6、云端以边端组为单位聚合每组边端上传的扰动值及扰动序号l,分别获得个边端组的平均向量,根据各边端组的平均向量分别获得对应的频率恢复子矩阵,进而获得频率恢复矩阵;S7、云端从频率恢复矩阵中选择k2个高频率元素,按照步骤S1中编码的规则,分别将k2个高频率元素解码为对应的真实项目,获得k2个真实项目构成的候选集,其中,k2是预设值;S8、云端与各边端针对候选集中的k2个真实项目采用集值型数据项目挖掘SVIM协议估计候选集中的每个真实项目的频率,进而从中挖掘出预设数量k3个高频率的频繁项目;其中,k3是预设值,k
3 <k2。2.根据权利要求1所述的一种隐私保护的云边协同的频繁项目挖掘方法,其特征在于,所述S1中将云端项目域编码为虚拟项目域的具体过程包含:S11、通过云端项目域的值域大小d计算出虚拟项目域的值域大小f,计算公式为;S12、构造阶数的编码矩阵,编码矩阵的行索引与列索引都设为,将云端项目域中的所有真实项目依次排列为编码矩阵的元素,即将云端项目域中的所有真实项目编码为其对应的虚拟项目对;S13、云端将构成的集合记为虚拟项目域。3.根据权利要求1所述的一种隐私保护的云边协同的频繁项目挖掘方法,其特征在于,
所述S2具体包含:S21、各边端从其拥有的真实项目对中随机采样一个私有真实项目,针对该私有真实项目所对应的虚拟项目对,遵循集值型数据项目挖掘SVIM协议的扰动机制对该虚拟项目对进行扰动,获得扰动值,并发送给云端;云端收集各边端发送的扰动值,聚合估计出虚拟项目域中各虚拟项目的估计频率;S22、将虚拟项目域中各虚拟项目的估计频率从高到低进行排序,获取前k1个高频虚拟项目构成集合Y,其中,k1为预设值且k
1 <f;S23、基于集合Y中k1个虚拟项目,云端构...

【专利技术属性】
技术研发人员:张凌浩董恺张政滕予非常政威贾创唐伟庞博
申请(专利权)人:国网四川省电力公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1