【技术实现步骤摘要】
一种事务数据的本地差分隐私收集方法
本专利技术涉及数据收集
,具体来说,涉及一种事务数据的本地差分隐私收集方法。
技术介绍
事务数据是项的集合,其中包含丰富的信息并可应用于不同的场景(如:购买的商品,看过的电影记录,搜索日志,网页浏览历史等).随着大数据技术的发展,海量的事务数据被收集,其中蕴含丰富的知识,数据收集者通过数据分析(如:协同过滤、关联规则等),基于得到的模型为用户提供更好的服务.然而,事务数据中往往包含个人隐私信息,如搜索网页时产生的搜索日志会泄露自己的健康状态、居住地点等信息;网上购物时产生的购物记录将泄露自己所购买的隐私物品,甚至会泄露自己的购物习惯以及行为模式;浏览网页时产生的WEB点击流将泄露自己的上网习惯等等.如果不采取任何保护措施直接收集并分析用户的数据,将会导致个人隐私信息的泄露,造成严重危害.震惊世界的AOL日志隐私泄露事件已敲响警钟,因隐私泄露所带来的困扰将严重影响着人们的合法权益和生活质量.目前,事务数据隐私保护发布是研究热点,大多数研究是将真实完整的事务数据发送到数据 ...
【技术保护点】
1.一种事务数据的本地差分隐私收集方法,其特征在于,步骤包括:/na1.基于不同的d与m,随机生成事务数据集D;/na2.对D所有的数据作等长处理,使之长度为m,;/na3.设k的范围为[1,d],可以遍历所有的k,找到使得项的频数分布估计的错误边界最小的k;/na4.基于距离函数,从k+1个候选项集子空间中随机抽取一个,得到inter;/na5:基于inter生成事务数据,并发送给事务数据收集者。/n
【技术特征摘要】
1.一种事务数据的本地差分隐私收集方法,其特征在于,步骤包括:
a1.基于不同的d与m,随机生成事务数据集D;
a2.对D所有的数据作等长处理,使之长度为m,;
a3.设k的范围为[1,d],可以遍历所有的k,找到使得项的频数分布估计的错误边界最小的k;
a4.基于距离函数,从k+1个候选项集子空间中随机抽取一个,得到inter;
a5:基于inter生成事务数据,并发送给事务数据收集者。
2.根据权利要求1所述的一种事务数据的本地差分隐私收集方法,其特征在于,所述距离函数是:
dist(t,s)=|t∩s|
令t表示用户拥有的事务数据,基于隐私模型随机抽取一个候选项集s,dist为候选项集s与t的交集的长度。
3.根据权利要求1所述的一种事务数据的本地差分隐私收集方法,其特征在于,所述项的频数分布估计的错误边界包含项分布估计的均方差MSE,所述MSE的计算如下:
Fa的方差为:
Var(Fa)=n·Pa·TPR·(1-TPR)+(n-n·Pa)·FPR·(1-FPR)
因为,随机变量的是Fa的线性变换,根据离散型随机变量方差的线性运算性质,令a,b为常数:
Var(a·X+b)=a2·Var(x)
可以将的线性变换整理为:
则的方差为:
则项分布均方误差为:
由于是Pa的无偏估计,则:
则总的均方差为:
<...
【专利技术属性】
技术研发人员:欧阳佳,肖政宏,刘少鹏,
申请(专利权)人:广东技术师范大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。