一种事务数据的本地差分隐私收集方法技术

技术编号:24289915 阅读:54 留言:0更新日期:2020-05-26 20:10
本发明专利技术提供一种事务数据的本地差分隐私收集方法,步骤包括:基于不同距离的d与m,随机生成事务数据集D;对D所有的数据作等长处理,使之长度为m,设k的范围为[1,d],可以遍历所有的k,找到使得项的频数分布估计的错误边界最小的k;基于距离函数,从k+1个候选项集子空间中随机抽取一个,得到inter;基于inter生成事务数据,并发送给事务数据收集者,数据收集者得到数据后,运用频数估计算法估计每个项的频数;进行TopK频繁项集挖掘;验证隐私参数设置策略,并且与PrivSet进行比较与分析。本事务数据的本地差分隐私收集方法可有效保护用户的事务数据,保证用户隐私不会泄漏,避免用户数据流失,造成不必要的损失。

A local differential privacy collection method for transaction data

【技术实现步骤摘要】
一种事务数据的本地差分隐私收集方法
本专利技术涉及数据收集
,具体来说,涉及一种事务数据的本地差分隐私收集方法。
技术介绍
事务数据是项的集合,其中包含丰富的信息并可应用于不同的场景(如:购买的商品,看过的电影记录,搜索日志,网页浏览历史等).随着大数据技术的发展,海量的事务数据被收集,其中蕴含丰富的知识,数据收集者通过数据分析(如:协同过滤、关联规则等),基于得到的模型为用户提供更好的服务.然而,事务数据中往往包含个人隐私信息,如搜索网页时产生的搜索日志会泄露自己的健康状态、居住地点等信息;网上购物时产生的购物记录将泄露自己所购买的隐私物品,甚至会泄露自己的购物习惯以及行为模式;浏览网页时产生的WEB点击流将泄露自己的上网习惯等等.如果不采取任何保护措施直接收集并分析用户的数据,将会导致个人隐私信息的泄露,造成严重危害.震惊世界的AOL日志隐私泄露事件已敲响警钟,因隐私泄露所带来的困扰将严重影响着人们的合法权益和生活质量.目前,事务数据隐私保护发布是研究热点,大多数研究是将真实完整的事务数据发送到数据中心,并假设数据中心或数据收集者是可信的.数据收集者对数据进行扰乱处理后,发布满足差分隐私约束的数据集或相关统计信息,该方法统称为中心化差分隐私技术.但尽管数据收集者宣称不会泄露或窃取用户的敏感信息,但在商业或利益的驱使下,用户隐私很难得到保证,因此假设数据中心或数据收集者是可信的这一点是不切实际的。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的目的在于提供一种事务数据的本地差分隐私收集方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种事务数据的本地差分隐私收集方法,步骤包括:a1.基于不同的d与m,随机生成事务数据集D;a2.对D所有的数据作等长处理,使之长度为m,;a3.设k的范围为[1,d],可以遍历所有的k,找到使得项的频数分布估计的错误边界最小的k;a4.基于距离函数,从k+1个候选项集子空间中随机抽取一个,得到inter;a5:基于inter生成事务数据,并发送给事务数据收集者。进一步地,距离函数是:dist(t,s)=|t∩s|令t表示用户拥有的事务数据,基于隐私模型随机抽取一个候选项集s,dist为候选项集s与t的交集的长度。进一步地,项的频数分布估计的错误边界包含项分布估计的均方差MSE,所述MSE的计算如下:Fa的方差为:Var(Fa)=n·Pa·TPR·(1-TPR)+(n-n·Pa)·FPR·(1-FPR)因为,随机变量的是Fa的线性变换,根据离散型随机变量方差的线性运算性质,令a,b为常数:Var(a·X+b)=a2·Var(x)可以将的线性变换整理为:则的方差为:则项分布均方误差为:由于是Pa的无偏估计,则:则总的均方差为:进一步地,TPR的计算公式为:假设样本空间大小为隐私参数α,样本空间划分为k+1个子样本空间,每个子样本空间中的候选项集与t的交集大小inter是相同的,其范围为[0,k],项的数目为k-inter。进一步地,FPR的计算公式为:进一步地,TPR和FPR中Ω的值为:进一步地,事务数据的本地差分隐私收集方法还包括数据收集者得到数据后,运用项的频数分布估计算法估计每个项的频数。进一步地,项的频率分布估计为其算法如下:其中用户的事务数据集个数为n。进一步地,事务数据的本地差分隐私收集方法还包括进行TopK频繁项集挖掘。进一步地,事务数据的本地差分隐私收集方法还包括验证隐私参数设置策略,并且与PrivSet进行比较与分析。与现有技术相比,本专利技术具有以下有益效果:1.本专利技术将候选项集的样本空间划分为多个子空间,抽取其中一个子空间,基于该子空间随机生成事务数据并发送给不可信的数据收集者,可以很好的保护用户数据不被泄漏;2.本事务数据的本地差分隐私收集方法可有效保护用户的事务数据,可避免用户数据流失,造成不必要的损失;3.本事务数据的本地差分隐私收集方法可有效收集用户的隐私数据,并进行统计与分析;4.本方法生成的事务数据集除了保留足够多的统计信息外,还尽可能多的保留了项之间的关联信息,这些关联信息可用于关联规则、频繁项集挖掘、TopK频繁项集挖掘等;5.本方法相比于其他方法应用范围更为广泛。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术一种事务数据的本地差分隐私收集方法的方法步骤示意图;图2是根据本专利技术一种事务数据的本地差分隐私收集方法的k值与频数分布估计的错误边界示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤,所述处理可以对应于方法、函数、规程、子例程、子程序等等。下面,结合附图以及具体实施方式,对专利技术做出进一步的描述:如图1至图2所示,一种事务数据的本地差分隐私收集方法,步骤包括:a1.基于不同的d与m,随机生成事务数据集D;a2.对D所有的数据作等长处理,使之长度为m,;a3.设k的范围为[1,d],可以遍历所有的k,找到使得项的频数分布估计的错误边界最小的k;a4.基于距离函数,从k+1个候选项集子空间中随机抽取一个,得到inter;a5:基于inter生成事务数据,并发送给事务数据收集者。根据上述内容,距离函数是:dist(t,s)=|t∩s|令t表示用户拥有的事务数据,基于隐私模型随机抽取一个候选项集s,dist为候选项集s与t的交集的长度。根据上述内容,项的频数分布估计的错误边界包含项分布估计的均方差MSE,所述MSE的计算如下:Fa的方差为:Var(Fa)=n·Pa·TPR·(1-TPR)+(n-n·Pa)·FPR·(1-FPR)因为,随机变量的是Fa的线性变换,根据离散型随机变量方差的线性运算性质,令a,b为常数:Var(a·X+b本文档来自技高网
...

【技术保护点】
1.一种事务数据的本地差分隐私收集方法,其特征在于,步骤包括:/na1.基于不同的d与m,随机生成事务数据集D;/na2.对D所有的数据作等长处理,使之长度为m,;/na3.设k的范围为[1,d],可以遍历所有的k,找到使得项的频数分布估计的错误边界最小的k;/na4.基于距离函数,从k+1个候选项集子空间中随机抽取一个,得到inter;/na5:基于inter生成事务数据,并发送给事务数据收集者。/n

【技术特征摘要】
1.一种事务数据的本地差分隐私收集方法,其特征在于,步骤包括:
a1.基于不同的d与m,随机生成事务数据集D;
a2.对D所有的数据作等长处理,使之长度为m,;
a3.设k的范围为[1,d],可以遍历所有的k,找到使得项的频数分布估计的错误边界最小的k;
a4.基于距离函数,从k+1个候选项集子空间中随机抽取一个,得到inter;
a5:基于inter生成事务数据,并发送给事务数据收集者。


2.根据权利要求1所述的一种事务数据的本地差分隐私收集方法,其特征在于,所述距离函数是:
dist(t,s)=|t∩s|
令t表示用户拥有的事务数据,基于隐私模型随机抽取一个候选项集s,dist为候选项集s与t的交集的长度。


3.根据权利要求1所述的一种事务数据的本地差分隐私收集方法,其特征在于,所述项的频数分布估计的错误边界包含项分布估计的均方差MSE,所述MSE的计算如下:
Fa的方差为:
Var(Fa)=n·Pa·TPR·(1-TPR)+(n-n·Pa)·FPR·(1-FPR)
因为,随机变量的是Fa的线性变换,根据离散型随机变量方差的线性运算性质,令a,b为常数:
Var(a·X+b)=a2·Var(x)
可以将的线性变换整理为:



则的方差为:



则项分布均方误差为:



由于是Pa的无偏估计,则:



则总的均方差为:
<...

【专利技术属性】
技术研发人员:欧阳佳肖政宏刘少鹏
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1