一种基于不可信服务器的差分隐私混合推荐方法技术

技术编号:36702723 阅读:16 留言:0更新日期:2023-03-01 09:20
本发明专利技术属于隐私保护技术领域,公开了一种基于不可信服务器的差分隐私混合推荐方法,构建新的隐私保护推荐系统框架,利用用户隐式反馈行为数据,在客户端考虑数值敏感度和数据分布不同,使用LCF

【技术实现步骤摘要】
一种基于不可信服务器的差分隐私混合推荐方法


[0001]本专利技术属于隐私保护
,尤其涉及一种基于不可信服务器的差分隐私混合推荐方法。

技术介绍

[0002]目前,互联网、大数据、云计算等技术的快速发展给人们的生活带来了便利的同时引发了“信息过载”的问题。因此,推荐系统孕育而出。它通过挖掘用户与项目之间的二元关系,帮助用户从海量数据中过滤其不太可能产生行为的项目,生成个性化推荐。
[0003]如今,在社交网站、影视娱乐、电子商务等领域,推荐系统已经成为必不可少的工具。然而推荐系统需要收集大量的用户信息、用户行为,这些所采集的信息往往会泄露用户隐私。用户出于隐私安全考虑,可能不愿意自己数据被推荐系统记录和存储。而且,我国于2021年11月通过了《互联网信息服务算法推荐管理规定》标志着数据的隐私保护已经成为推荐系统研究领域一个迫切需要解决的问题。
[0004]现有的隐私技术基本上围绕着匿名技术、加密技术和扰动技术。匿名技术通过将用户标识符泛化到等价类的方式保证用户的隐私,如k匿名技术,但它极易受到具有背景知识的攻击者的攻击,无法达到用户隐私安全的目的。加密技术将数据明文编码为仅特定人员能够解码的密文,保证存储和传输过程中数据的机密性,但它应用到推荐系统中涉及密钥传输以及对大量用户数据进行加密计算,巨大的通信与运算开销导致其在实际应用场景中难以落地。
[0005]在推荐系统中,仅通过噪声添加机制便可实现差分隐私,无需额外的计算开销,故已得到广泛关注。Dwork等人提出的差分隐私保护技术,解决了大多数隐私保护技术中普遍存在的背景知识攻击问题。相较于传统的密码学安全模型,差分隐私能够将隐私保护程度通过隐私预算进行量化,使得不同隐私保护模型之间的数据安全性程度具有可比性。McSherry等人在建立项目相似度协方差矩阵时加入满足差分隐私的噪声实施干扰,然后再提交给推荐系统实施推荐,达到了隐私保护的目的。Chen等人首先将数据集分成大小合适的几组类别,然后巧妙地使用指数机制从目标类别中选择一组邻居,最后基于该组邻居进行推荐计算。Zhang等人在Chen等人的基础上改进了相似度函数,将多种相似度进行加权计算构造混合相似度,并改进了聚类算法,有效地提高了推荐准确度。
[0006]然而,现有的基于差分隐私的推荐系统模型大都将服务器视为可信的,并不符合实际场景。本地差分隐私(localdifferentialprivacy,LDP)是继中心化差分隐私技术之后的一种强健的隐私保护模型,其充分考虑采集过程中数据收集者窃取或泄露用户隐私的可能性。RAPPOR是本地差分隐私的代表性技术,但其每个用户需要传输长度为h的向量给数据收集者,因此用户和数据收集者之间的传输代价比较高。针对通信代价高昂的问题,S

Hist方法中每个用户对字符串进行编码后,随机选择其中的一个比特位,利用随机响应技术扰动后再将其发送给数据收集者,因此降低了传输代价。Wang等人分析了现有LDP技术的特性,提出了“纯”协议框架,引入了适用于所有“纯”协议的聚合和解码技术。
[0007]简而言之,本地差分隐私机制使攻击者无法根据隐私算法的某个输出结果反推其输入数据为哪一条记录。然而,它将所有用户数据视为同等敏感,比传统的中心化差分隐私带来更大的噪声,会严重影响算法的可用性。同时,大多数现有的隐私保护推荐算法是针对显式反馈行为数据的单一推荐算法、且仅适用于可信服务器场景。然而推荐服务提供商大都不可信,从而引发了重大的隐私风险。因此,亟需设计一种新的差分隐私混合推荐方法、系统。
[0008]通过上述分析,现有技术存在的问题及缺陷为:
[0009](1)现有的隐私技术中,匿名技术极易受到具有背景知识的攻击者的攻击,无法达到用户隐私安全的目的;加密技术应用到推荐系统中涉及密钥传输以及对大量用户数据进行加密计算,巨大的通信与运算开销导致其在实际应用场景中难以落地。
[0010](2)现有的基于差分隐私的推荐系统模型大都将服务器视为可信的,并不符合实际场景;本地差分隐私机制将所有用户数据视为同等敏感,比传统的中心化差分隐私带来更大的噪声,会严重影响算法的可用性。
[0011](3)现有的隐私保护推荐算法是针对显式反馈行为数据的单一推荐算法、且仅适用于可信服务器场景,然而推荐服务提供商大都不可信,从而引发了重大的隐私风险。

技术实现思路

[0012]针对现有技术存在的问题,本专利技术提供了一种基于不可信服务器的差分隐私混合推荐方法,尤其涉及一种差分隐私混合推荐方法、系统、介质、设备及终端。
[0013]本专利技术是这样实现的,一种差分隐私混合推荐方法,所述差分隐私混合推荐方法包括:构建新的隐私保护推荐系统框架,利用用户隐式反馈行为数据,在客户端考虑数值敏感度和数据分布不同,使用LCF

VDP机制扰动原始数据并上传到服务器;服务器混合两种算法的相似度,最终选择topk混合相似度发送给每个用户设备,在每个用户设备中进行预测评分计算并推荐。
[0014]进一步,所述的基于差分隐私的客户端-服务器协同保护混合推荐系统框架包括以下步骤:
[0015]步骤一:在客户端用户数据隐私处理,保证上传到服务器端的用户隐私泄露限制在差分隐私定义隐私预算内,
[0016]步骤二:在服务器端混合项目-项目相似度,具体在基于项目的协同过滤推荐算法上添加了基于内容的推荐,能够解决物品冷启动的问题。(混合两种推荐算法,能有效地弥补各个推荐算法的缺点并更好地发挥各个推荐算法的优点。)又因为在服务器上基于内容计算项目-项目相似度不会引入用户的额外信息,因此不会涉及用户的隐私问题。
[0017]步骤三:在客户端本地进行计算预测评分并推荐,可以防止根据服务器端计算的推荐结果推断用户的敏感信息,导致用户隐私泄露的问题。
[0018]进一步,所述步骤一中的设计适合推荐系统的数据扰动技术LCF

VDP,扰动并计算从用户隐式数据提取出项目-项目相似度具体如下:
[0019]利用设计的适合推荐系统的数据扰动技术LCF

VDP,考虑数据分布和数值敏感度的问题让0响应真实值的概率和1响应真实值的概率并不相等。
[0020]在推荐系统场景下的隐私定义为:当存在m个项,设X=[x1,x2,...x
m
]和Y=[y1,
y2,...y
m
]分别表示用户的真实交互数据和扰动后的交互数据,其中X
i
和Y
i
分别表示用户的真实交互数据和扰动后的交互数据包含项目I
i
或者不包含项目I
i
,根据差分隐私的定义,设其中则:
[0021][0022]设计新的扰动机制:当数值为1时,以p的概率返回其原值,以1

p的概率置为0,当数值为0时,以q的概率置其为1,以1

q的概率返回其原值;当p/q≤e
ε
时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不可信服务器的差分隐私混合推荐方法,其特征在于,所述基于不可信服务器的差分隐私混合推荐方法包括:构建新的隐私保护推荐系统框架,利用用户隐式反馈行为数据,在客户端考虑数值敏感度和数据分布不同,使用LCF

VDP机制扰动原始数据并上传到服务器;服务器混合两种算法的相似度,最终选择topk混合相似度发送给每个用户设备,在每个用户设备中进行预测评分计算并推荐。2.如权利要求1所述基于不可信服务器的差分隐私混合推荐方法,其特征在于,所述基于不可信服务器的差分隐私混合推荐方法包括以下步骤:设计适合推荐系统的数据扰动技术LCF

VDP,在客户端存储真实的交互记录,采用LCF

VDP进行用户数据隐私处理并将处理后的数据上传到服务器端;定义服务器端的混合方式,采用简单的加权组合方式把从隐私处理后的数据中提取相似度与从内容中提取出的相似度进行混合;设计预测评分计算和推荐方法;在客户端本地根据存储的真实的交互记录和topk混合相似度进行项目预测评分计算,并从计算好的项目预测评分中取topN推荐给用户。3.如权利要求2所述基于不可信服务器的差分隐私混合推荐方法,其特征在于,所述步骤一中的无隐私保护的基于项目的协同过滤包括:从相似度计算、预测评分计算、推荐方法三个方面定义采用的基于项目的协同过滤的方法;当存在n个用户U={U1,U2,...U
n
}和m个项目I={I1,I2,...I
m
},用户U
u
∈U的历史交互数据记为X
u
,有X
u
∈I;使用Jaccard相似度从用户-项目交互矩阵中计算出项目-项目相似度矩阵;其中,intersection(I
i
,I
j
)表示同时交互项目i和项目j的用户数量,union(I
i
,I
j
)表示至少交互项目i或者项目j的用户数量;用邻居项目的交互记录的加权和计算用户U
u
的项目I
i
的预测评分;其中,sim(I
i
,I
j
)表示项目i和项目j的相似度,X
u
表示用户u对项目j的历史交互记录;所述根据从项目中提取的标签计算项目-项目相似度包括:其中,intersection_tags(I
i
,I
j
)表示项目i和项目j的标签的交集数量,union_tags(I
i
,I
j
)表示项目i和项目j的标签的并集数量;所述采用简单的加权组合方式混合相似度的形式如下:mixed_sim(I
i
,I
j
)=a*sim_jac(I
i
,I
j
)+b*sim_tag(I
i
,I
j
);其中,a是sim_jac(I
i
,I
j
)的权重,sim_tag(I
i
,I
j
)的权重值是b;当a=1,b=0时,混合算法退化成基于项目的协同过滤算法。4.如权利要求2所述基于不可信服务器的差分隐私混合推荐方法,其特征在于,所述步骤二中的差分隐私的形式化定义如下:
-差分隐私:对于任意一对仅相差一条数据的相邻数据集D和D'以及任意可能的查询结果S,如果一个隐私保护机制M能够使得相邻数据集上的查询结果满足下式,则算法M满足-差分隐私;其中,ε指隐私预算,用于衡量隐私与数据的可用性;ε越小,隐私性越好,数据的可用性越差,反之亦然;所述本地差分隐私的形式化定义如下:-本地差分隐私:给定n个用户,每个用户对于一条记录,给定一个隐私算法M及其定义域Dom(M)和值域Ran(M),若算法M在任意两条记录X和X'(X和X'∈Dom(M))上得到相同的输出结果满足下式,则算法M满足-本地差分隐私;其中,ε指隐私预算,用于衡量隐私与数据的可用性;ε越小,隐私性越好,数据的可用性越差,反之亦然。5.如权利要求2所述基于不可信服务器的差分隐私混合推荐方法,其特征在于,所述步骤二中的基于差分隐私的客户端-服务器协同保护推荐系统框架如下:(1)客户端用户数据隐私处理:用户的客户端保存着真实的交互数据,扰动方式使用LCF

【专利技术属性】
技术研发人员:杨昌松唐紫薇丁勇柳悦玲刘洋
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1