基于差分隐私保护的邻域推荐方法技术

技术编号:18732822 阅读:22 留言:0更新日期:2018-08-22 03:10
本发明专利技术公开了一种基于差分隐私保护的邻域推荐方法。该方法为:首先在训练阶段,将已收集的用户对物品的评价或喜好,转化为用户‑评分矩阵,作为推荐方法模型的训练集;然后利用基于邻域的推荐方法建立评分预测模型,预测用户对物品的评分情况,在基于邻域的推荐方法中,计算出差分隐私保护下的平均值,用户偏置项与物品偏置项;在评分预测阶段,利用基于指数机制的差分隐私保护邻居选择方法选择邻居;利用相似度的局部敏感度,添加拉普拉斯噪声进行差分隐私保护;最后利用评分预测模型与训练出的差分隐私保护模型参数,预测用户对物品的评分。本发明专利技术可以在提供推荐结果时,对用户的信息进行差分隐私保护,并具有较高的推荐准确度。

Neighborhood recommendation method based on differential privacy protection

The invention discloses a neighborhood recommendation method based on differential privacy protection. The method is as follows: firstly, in the training stage, the collected user's evaluation or preference for the item is transformed into the user's score matrix, which is used as the training set of the recommendation method model; secondly, the neighborhood-based recommendation method is used to establish a score prediction model to predict the user's score of the item, and the neighborhood-based recommendation method is used to predict the user's score of the item. Mean value, user bias and item bias under differential privacy protection are calculated. Neighbor selection method based on differential privacy protection based on exponential mechanism is used to select neighbors in the scoring prediction stage. Laplace noise is added to local sensitivity of similarity to perform differential privacy protection. The parameters of the model are compared with the trained privacy preserving model parameters to predict users' ratings of items. The invention can provide differential privacy protection for user's information when providing recommendation results, and has high recommendation accuracy.

【技术实现步骤摘要】
基于差分隐私保护的邻域推荐方法
本专利技术涉及数据分析与数据挖掘
,特别是一种基于差分隐私保护的邻域推荐方法。
技术介绍
当今社会,随着互联网和移动互联网的快速普及与发展,各类网络应用与移动App已经融入到人们日常工作生活的方方面面,例如即时通讯、社交网络、电子商务与电子支付等等,人们的日常工作与生活已经离不开互联网与移动互联网。网民数量与网站应用数量的飞速增长的同时,互联网上的各类信息也在加速增长中,在巨大的网民与网站基数下,每时每刻增加的信息数量已经超过一般人的承受能力。这使得在海量的互联网数据中,人们无法主动有效的找到、处理和利用自己想要的数据,这种情况被称作信息过载(InformationOverload)问题。在信息过载的时代,人们也在寻找解决信息处理与利用的有效方案。推荐系统不仅帮助人们更有效地获得想要的信息,也帮助信息提供者更好的将自己的信息推送到目标人群中,推荐系统已经成为当今互联网的重要环节。推荐系统的工作就是分析用户的喜好与使用习惯,建立用户与信息或产品之间的关系模型,再利用推荐方法完成相应的推荐。推荐系统在为用户建立定制化服务时,最基本的方法是通过用户自己设置自己想要的信息或产品的类型来获得推荐。推荐系统为了提供更准确的服务,使自己的推荐更符合用户的需求,需要收集大量的用户行为、使用习惯等信息来进行推荐,例如用户的浏览记录、购买信息、评分数据等信息。而且往往用户行为数据越丰富、越详细,构建的推荐模型就越准确。但是,在这大量的用户行为、使用习惯等信息中存在泄露用户个人隐私的风险。对于推荐系统来说,尽最大可能地保护用户的隐私安全与提升推荐系统的推荐准确度同等重要。因为更安全的隐私保护会减少用户分享自己隐私信息的担忧,使用户会更愿意提供自己的真实使用数据给推荐系统。而更丰富和准确的数据则会进一步提高推荐的准确度,提供更好的用户体验,从而进一步提高用户对推荐系统的信心与参与度,促成一个良性的循环。因此推荐系统的隐私保护研究,对于推动推荐系统良性发展,是具有非常重要的意义的。Dwork2006年提出了差分隐私机制。它首先定义了一个极为严格的攻击模型,通过对数据集中的原始信息或者统计数据添加噪声来实现对隐私的保护。因此即使攻击者拥有除目标隐私信息外的所有背景知识,隐私数据依然可以得到有效的保护。这些差分隐私的优点使得它受到国内外研究者的广泛研究。由于差分隐私保护在实际的使用过程中,大多是通过在数据集或者方法的输出结果中添加噪声来实现,如果不恰当的使用,则会造成数据集中添加噪声过大、数据可用性降低的情况。
技术实现思路
本专利技术的目的在于提供一种基于差分隐私保护的邻域推荐方法,可以在提供推荐结果时,对用户的信息进行差分隐私保护,并能够保证较好的推荐准确度。实现本专利技术目的的技术解决方案是:一种基于差分隐私保护的邻域推荐方法,包括以下步骤:步骤1、在训练阶段,将已收集的用户对物品的评价或喜好,转化为用户-评分矩阵,作为推荐方法模型的训练集;步骤2、通过差分隐私平均值和偏置项计算方法,计算出差分隐私保护下的平均值;步骤3、通过基于差分隐私的偏置项计算,计算出差分隐私保护下的用户偏置项和物品偏置项;步骤4、在评分预测阶段,利用基于指数机制的差分隐私保护邻居选择方法选择邻居;步骤5、利用相似度的局部敏感度,添加拉普拉斯噪声进行差分隐私保护;步骤6、最后利用评分预测模型与训练出的差分隐私保护模型参数,预测用户对物品的评分。进一步地,步骤1中所述的在训练阶段,将已收集的用户对物品的评价或喜好,转化为用户-评分矩阵,具体如下:将已收集的用于对物品的评价或喜好的,转化为n×m的用户-评分矩阵Rn×m,用户集U={u1,u2,...,un},其中n为用户总数,物品集I={i1,i2,...,im},其中m为物品总数,rui为用户u对物品i的评分。进一步地,步骤2中所述的通过差分隐私平均值计算方法,计算出差分隐私保护下的平均值,具体如下:(3.1)计算评分求和的敏感度:Δrsum=rmax-rmin,其中rmax表示评分中的最大值,rmin表示评分中的最小值;(3.2)计算评分计数的敏感度:Δrcount=1;(3.3)计算出差分隐私保护的评分和其中ε1为平均值计算的差分隐私预算,R表示评分矩阵,rui为评分矩阵中用户u对物品i的评分;(3.4)计算出差分隐私保护的评分计数|R|\+Lap(2Δrcount/ε1);(3.5)计算差分隐私保护的评分平均值:进一步地,步骤3中所述的通过基于差分隐私的偏置项计算,计算出差分隐私保护下的用户偏置项和物品偏置项,具体如下:(4.1)对于每个评分rui计算如果||eui||大小超过了emax,则根据emax对eui进行截断;(4.2)更新bu:(4.3)更新bi:(4.4)对于每个用户u更新bu:bu=bu+Lap(2w*sbu/ε2),如果bu大小超过了bumax,则根据bumax对bu进行截断;(4.5)对于每个物品i更新bi:bi=bi+Lap(2w*sbi/ε2),如果bi大小超过了bimax,则根据bimax对bi进行截断;(4.6)对上述步骤迭代w次后,返回bu,bi;其中参数ε2为差分隐私保护偏置项计算的隐私预算,γ为学习速率,λ为正则化参数,方法迭代终止条件为固定迭代次数,w为迭代次数。进一步地,步骤4中所述的在评分预测阶段,利用基于指数机制的差分隐私保护邻居选择方法选择邻居,具体如下:假设用户-物品评分数据R=rui,目标用户为u,目标物品为i,候选物品列表为I,候选物品列表中包含是当前用户曾经评价过且与物品i存在相似度的物品;设qi(I,nj)为可用性函数,nj为根据可用性函数qi(I,nj)每次输出的邻居,由于邻居选择的主要目的是从候选物品列表I中选择与当前物品ii相似度最大的k个物品,因此采用物品间相似度作为可用性函数,即:qi(I,nj)=sim(i,j)其中sim(i,j)为物品ii与物品ij的相似度;假设Δq为可用性函数的敏感度,根据差分隐私保护指数机制的定义,提出的差分隐私邻居选择方法在每次选择的过程中,根据指数机制的定义,以与成比例的概率从I中选出邻居nj;随后将方法迭代k次,选取k个隐私保护邻居,输出即为物品i的k个差分隐私保护邻居。进一步地,步骤5中所述的利用相似度的局部敏感度,添加拉普拉斯噪声进行差分隐私保护,具体如下:差分隐私保护相似度加扰的目的是在进行评分预测时,对其中的相似度进行差分隐私保护,差分隐私保护的实现方式为拉普拉斯机制;假设Δrsim为相似度的敏感度,ε4为差分隐私保护相似度加扰隐私预算,为上一步邻居选择环节选择出的物品i的k个邻居,对于中的每个物品j,按如下公式计算差分隐私保护的相似度:本专利技术与现有技术相比,其显著优点为:(1)基于差分隐私保护技术,对基于邻域的推荐方法的训练过程进行隐私保护,使得训练得到的模型参数满足差分隐私的要求;(2)在差分隐私的保护下,即使攻击者拥有除目标隐私信息外的所有背景知识,用户隐私数据依然可以得到有效的保护;(3)提供一定的隐私保护的情况下获得较好的推荐准确度,且相比于已有的差分隐私保护邻域方法,可以在略牺牲隐私保护效果的情况下,获得更好的推荐准确度,具有更好的实用价值。附图说本文档来自技高网
...

【技术保护点】
1.一种基于差分隐私保护的邻域推荐方法,其特征在于,包括以下步骤:步骤1、在训练阶段,将已收集的用户对物品的评价或喜好,转化为用户‑评分矩阵,作为推荐方法模型的训练集;步骤2、通过差分隐私平均值和偏置项计算方法,计算出差分隐私保护下的平均值;步骤3、通过基于差分隐私的偏置项计算,计算出差分隐私保护下的用户偏置项和物品偏置项;步骤4、在评分预测阶段,利用基于指数机制的差分隐私保护邻居选择方法选择邻居;步骤5、利用相似度的局部敏感度,添加拉普拉斯噪声进行差分隐私保护;步骤6、最后利用评分预测模型与训练出的差分隐私保护模型参数,预测用户对物品的评分。

【技术特征摘要】
1.一种基于差分隐私保护的邻域推荐方法,其特征在于,包括以下步骤:步骤1、在训练阶段,将已收集的用户对物品的评价或喜好,转化为用户-评分矩阵,作为推荐方法模型的训练集;步骤2、通过差分隐私平均值和偏置项计算方法,计算出差分隐私保护下的平均值;步骤3、通过基于差分隐私的偏置项计算,计算出差分隐私保护下的用户偏置项和物品偏置项;步骤4、在评分预测阶段,利用基于指数机制的差分隐私保护邻居选择方法选择邻居;步骤5、利用相似度的局部敏感度,添加拉普拉斯噪声进行差分隐私保护;步骤6、最后利用评分预测模型与训练出的差分隐私保护模型参数,预测用户对物品的评分。2.根据权利要求1所述的基于差分隐私保护的邻域推荐方法,其特征在于,步骤1中所述的在训练阶段,将已收集的用户对物品的评价或喜好,转化为用户-评分矩阵,具体如下:将已收集的用于对物品的评价或喜好的,转化为n×m的用户-评分矩阵Rn×m,用户集U={u1,u2,...,un},其中n为用户总数,物品集I={i1,i2,...,im},其中m为物品总数,rui为用户u对物品i的评分。3.根据权利要求1所述的基于差分隐私保护的邻域推荐方法,其特征在于,步骤2中所述的通过差分隐私平均值计算方法,计算出差分隐私保护下的平均值,具体如下:(3.1)计算评分求和的敏感度:Δrsum=rmax-rmin,其中rmax表示评分中的最大值,rmin表示评分中的最小值;(3.2)计算评分计数的敏感度:Δrcount=1;(3.3)计算出差分隐私保护的评分和其中ε1为平均值计算的差分隐私预算,R表示评分矩阵,rui为评分矩阵中用户u对物品i的评分;(3.4)计算出差分隐私保护的评分计数|R|+Lap(2Δrcount/ε1);(3.5)计算差分隐私保护的评分平均值:4.根据权利要求1所述的基于差分隐私保护的邻域推荐方法,其特征在于,步骤3中所述的通过基于差分隐私的偏置项计算,计算出差分隐私保护下的用户偏置项和物品偏置项,具体如下:(4.1)对于每个评分rui计算如果||eui||大小超过了emax,则根据emax对eui进行截...

【专利技术属性】
技术研发人员:耿夏琛侯君李千目
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1