一种基于差分隐私的逻辑回归矩阵分解推荐算法制造技术

技术编号:35288161 阅读:9 留言:0更新日期:2022-10-22 12:33
本发明专利技术涉及一种基于差分隐私的逻辑回归矩阵分解推荐算法,属于隐私安全技术领域。该方法为:S1:将用户评分数据转换为0/1状态的隐式数据;S2:对评分矩阵进行负反馈采样;S3:将0/1状态的隐式数据转换为二分类问题,以概率方式建模;S4:构建逻辑回归模型拟合用户偏好;S5:利用sigmoid函数对对预测评分进行非线性变换;S6:采用目标扰动方式对隐式反馈数据进行隐私保护并完成推荐。本发明专利技术在实现用户隐私保护的同时还能有效的保证推荐结果的准确性,实现了隐私安全性和推荐准确性的良好平衡。实现了隐私安全性和推荐准确性的良好平衡。实现了隐私安全性和推荐准确性的良好平衡。

【技术实现步骤摘要】
一种基于差分隐私的逻辑回归矩阵分解推荐算法


[0001]本专利技术属于隐私安全
,涉及一种基于差分隐私的逻辑回归矩阵分解推荐算法。

技术介绍

[0002]推荐系统是解决信息过载问题的一种有效方法,在互联网领域有着广泛的应用。推荐算法通过挖掘大量的用户历史数据,分析用户或物品的相似性,对用户的偏好进行预测,从而完成对用户的商品或服务推荐。由于推荐算法在模型训练过程中需要使用大量的用户数据,存在隐私泄露的风险。已有研究表明,针对邻居型推荐算法,攻击者通过创建虚假邻居可以推断用户的隐私数据;针对矩阵分解型推荐算法,攻击者通过重构攻击可以推断出用户的评分数据,从而进一步获取用户的如性别、政治观点等隐私信息。因此,在保证隐私保护的前提下为用户提供个性化的推荐服务成为了当前推荐系统研究的重点和热点。
[0003]差分隐私是一种具有严格数学基础和良好实用性的隐私保护框架,现已逐步应用于推荐领域的用户隐私保护。虽然隐私保护技术的引入在一定程度上缓解了推荐系统中存在的数据隐私泄露问题,但是在当前考虑隐私保护的推荐算法中,大多数是针对显式反馈数据(如用户评分等)开展隐私保护。从推荐系统数据收集的情况看,更多的是隐式反馈数据(如用户是否浏览了商品,是否响应了点击事件等)。隐式反馈数据是推荐系统中更为常见的数据形式,不仅形式多样,而且同样蕴藏着丰富的隐私信息,因此它同样需要进行隐私保护。
[0004]在考虑隐式反馈数据隐私安全的推荐算法设计中,当前大多数的已有研究在构建矩阵分解模型时都是沿用显式反馈数据的处理思路,以加权均方误差作为损失函数。这种处理方式的实质是通过建立线性回归模型拟合用户数据,并进行偏好预测与推荐。然而,由于隐式反馈数据最终会被抽象为0和1两种状态,基于线性回归的模型并不能有效处理隐式反馈数据的0/1状态。本文认为建立分类模型对0/1状态的数据进行拟合能更合理地利用隐式反馈数据,有望获得更好的推荐效果。在此类分类模型中需要引入非线性函数对计算结果进行处理。非线性函数的引入会给隐私保护带来新的技术挑战,它增加了算法敏感度分析的复杂性,甚至有可能导致差分隐私的安全性证明不可行。针对上述研究的不足以及面临的技术挑战,提出了一种考虑隐式反馈数据隐私保护的矩阵分解推荐算法。本算法构建逻辑回归模型拟合用户偏好,采用目标函数扰动的方式对隐式反馈数据进行隐私保护,利用sigmoid函数的对称性证明了算法能够满足差分隐私保护。同时本文算法还有效保留了矩阵分解算法的优越性能,保证了推荐结果的准确性。为以使用隐式反馈数据为主的推荐系统提供了兼顾隐私保护和推荐准确性的有效解决方案。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于差分隐私的逻辑回归矩阵分解推荐算法,实现信息安全性与推荐系统准确性的良好平衡。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于差分隐私的逻辑回归矩阵分解推荐算法,该方法具体包括以下步骤:
[0008]S1:将评分矩阵R中的所有存在的评分数据r
ij
设为1,r
ij
表示第i个用户对第j个物品的评分;评分矩阵R中用户i和项目j存在交互(r
ij
>0)设为1,其余没有交互的设为0。
[0009]S2:算法针对于隐式反馈数据,对评分矩阵R进行预处理后,再对评分矩阵中的缺失值(S1中r
ij
值为0)进行负反馈数据采样,将评分转化为[0,1]的范围,得到隐式数据形式的用户评分矩阵
[0010]S3:将隐式数据的矩阵分解转换成二分类问题,以概率方式对用户和项目的交互情况建模:
[0011][0012]S4:采用sigmoid函数对预测评分进行非线性变换,将概率模型转换为逻辑回归模型:
[0013][0014]S5:在S4模型收敛时,可得到最优的隐因子用户矩阵U,然后采用目标扰动方法实现差分隐私,基本思想是通过在目标函数上添加随机噪音进行扰动,具体为:
[0015][0016]进一步,所述步骤S3、S4中,对隐式数据建模如下:
[0017][0018]式中,为存储用户与项目交互信息的隐式反馈数据矩阵;m和n分别表示用户和项目数量;U=[u
i
]i∈[m],Z=[z
j
]j∈[n]分别为用户因子矩阵和项目因子矩阵;u
i
,z
j
分别表示用户i和项目j的隐因子向量;(i,j)∈P表示正反馈数据对应的用户

项目对,(i,j)∈N表示负反馈数据对应的用户

项目对。
[0019]针对线性回归在分类问题上的局限性,采用sigmoid函数对预测评分进行非线性变换,将上式转换为如下逻辑回归模型:
[0020][0021]其中,g(x)=1/(1+exp(

x)),对两边取对数可得:
[0022][0023]为了保证推荐系统取得最好的预测效果,需要找寻使得上式取值最大的U和Z。同时,为保证模型的适应性,基于上式设计损失函数为:
[0024][0025]式中,g(x)=1/(1+exp(

x)),为防止模型过拟合,λ是设定的正则项的参数,||u
i
||与||z
j
||是正则化项。
[0026]进一步,所述步骤S5中,本算法考虑集中式的推荐系统场景,即推荐系统服务器被认为是可信赖的,意味着服务器可以收集用户与项目的交互数据并训练算法。然而,攻击者可以通过用户项目的交互推断评分数据。为了抵御这类攻击,推荐系统服务器对用户因子矩阵U保密存储,只发布项目因子矩阵Z。但项目矩阵Z中也包含用户信息,直接发布依旧会导致隐私泄露。所以,考虑对隐因子项目矩阵Z添加隐私保护机制以保护数据,故在S4基础上在目标函数上添加随机噪音扰动:
[0027][0028]式中,η
j
是一个噪声向量,独立随机的服从密度函数exp(

ε||η
j
||/2Δ)中选取,其中Δ=max
r

min
r
,max
r
与min
r
分别表示评分最大值与最小值,ε是控制隐私保护程度的隐私预算参数,Δ是隐私保护敏感度。
[0029]本专利技术的有益效果在于:本专利技术所述方法为以使用隐式反馈数据为主的推荐系统提供了兼顾隐私保护和推荐准确性的有效解决方案。
[0030]本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0031]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作优选的详细描述,其中:
[0032]图1为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于差分隐私的逻辑回归矩阵分解推荐算法,其特征在于,该方法具体包括以下步骤:S1:将评分矩阵R中的所有存在的评分数据r
ij
设为1,r
ij
表示第i个用户对第j个物品的评分;评分矩阵R中用户i和项目j存在交互(r
ij
>0)设为1,其余没有交互的设为0。S2:算法针对于隐式反馈数据,对评分矩阵R进行预处理后,再对评分矩阵中的缺失值(S1中r
ij
值为0)进行负反馈数据采样,将评分转化为[0,1]的范围,得到隐式数据形式的用户评分矩阵S3:将隐式数据的矩阵分解转换成二分类问题,以概率方式对用户和项目的交互情况建模:S4:采用sigmoid函数对预测评分进行非线性变换,将概率模型转换为逻辑回归模型:S5:在S4模型收敛时,可得到最优的隐因子用户矩阵U,然后采用目标扰动方法实现差分隐私,基本思想是通过在目标函数上添加随机噪音进行扰动,具体为:2.根据权利要求1所述的一种基于差分隐私的逻辑回归矩阵分解推荐算法,其特征在于:所述S3、S4中,对隐式数据建模如下:式中,为存储用户与项目交互信息的隐式反馈数据矩阵;m和n分别表示用户和项目数量;U=[u
i
]
i∈[m]
,Z=[z
j
]
j∈[n]
分别为用户因子矩阵和项目因子矩阵;u
i
,z
j
分别表示用户i和项目j的隐因子向量;(i,j)∈P表示正反馈数据对应的用户

项目对,(i,j)∈N表示负反馈数据对应的用户

...

【专利技术属性】
技术研发人员:杜茂康彭俊杰胡勇进
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1