当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于随机采样的差分隐私非负矩阵分解方法技术

技术编号:38159672 阅读:11 留言:0更新日期:2023-07-13 09:31
一种基于随机采样的差分隐私非负矩阵分解方法,首先,输入原始评分数据矩阵:即系统收集的用户原始评分数据矩阵的评分数据V;其次初始化因子矩阵;然后对上述因子矩阵进行迭代优化,直到收敛或者精度达到要求;最后根据生成的因子矩阵进行推荐,计算均方根误差RMSE;本发明专利技术在噪声引入环节加入了随机采样操作,避免了多次迭代导致的误差积累过大,同时兼顾了应用的隐私性和可用性,提高了其实际应用价值,给出了RDPNM的隐私性和可用性证明;相比于目前最优方法IDPNMF只能保证∈

【技术实现步骤摘要】
一种基于随机采样的差分隐私非负矩阵分解方法


[0001]本专利技术属于机器学习
,涉及一种基于随机采样的差分隐私非负矩阵分解方法。

技术介绍

[0002]随着大数据时代的到来,海量数据在带给我们便捷的同时,也给用户隐私信息的保护带来了新的挑战。近年来,随着人们隐私保护意识的不断加强,越来越多的用户不希望个人隐私信息有泄露的风险。推荐系统作为如今网络商务中必不可少的一项技术,在互联网和一些工业领域得到了广泛的应用,而非负矩阵分解是最常用的实现推荐系统的方法之一。由于非负矩阵分解算法需要收集用户的个人隐私数据,如果不施加保护措施,就可能使其在实际应用于推荐系统时发生隐私信息泄露。现存的差分攻击算法如重构攻击、成员推理攻击、链接攻击可能会使得非负矩阵分解算法泄露用户的个人购物偏好、搜索偏好等敏感信息。例如,在电影推荐中,假设系统数据表统计了用户是否喜欢该电影(0表示不喜欢,1是喜欢)。此时若系统提供统计查询:q(n)返回前n条记录的数值之和,那么如果有q(1)=1,q(2)=2,q(3)=2,q(4)=3,此外每条记录在数据表中的位置是已知。但是在这种情况下,攻击者通过计算q(4)

q(3)=1,就可以推断出第四个人是喜欢此电影的,这就导致了个人喜好数据的泄露,说明即使推荐系统没有直接发布个人隐私数据,仍然有潜在的个人隐私泄露风险。上述隐私保护问题的出现给非负矩阵分解算法应用于推荐系统带来了巨大挑战,已经成为一个亟待解决的问题。
[0003]差分隐私具有严格而优雅的数学定义和轻量级的计算负担,其主要对算法得到的结果进行混淆,使得对于相邻数据集,算法得到相同结果的概率保持在一定范围内,这样就可以在一定程度上抵御差分攻击。由于差分隐私的优越性,现如今已成为许多应用程序的流行隐私保护框架,因此已经出现了许多基于差分隐私保护的推荐系统算法。Mcsherry等人(MCSHERRY F,MIRONOV I.Differentially private recommender systems:Building privacy into the netflix prize contenders[C]//Proceedings ofthe 15th ACM SIGKDD international conference on Knowledge discovery and data mining.Paris,France:ACM,2009:627

636.)首先将差分隐私引入到基于协同过滤矩阵分解的推荐系统中,他们提出的摄动方法在相似度计算阶段和推荐阶段注入噪声,以保证差分隐私。Berlioz等人(BERLIOZ A,FRIEDMAN A,KAAFARM A,etal.Applying differential privacy to matrix factorization[C]//Proceedings of the 9th ACM Conference on Recommender Systems.Vienna,Austria:ACM,2015:107

114.)根据矩阵分解算法的不同阶段,提出了三种方法来施加扰动:原始数据的输入扰动、迭代进程内的梯度扰动和算法结果的输出扰动。Zhang等人(ZHANG S,LIU L,CHEN Z,et al.Probabilistic matrix factorization with personalized differential privacy[J].Knowledge

Based Systems,2019,183:104864.)通过考虑用户的个性化隐私需求,设计了一种保护隐私的概率矩阵分解算法来发布扰动项概要。这几种方法的共同缺点是没有施加非负性约束,最近
Xun等人(RAN X,WANG Y,ZHANG L Y,et al.A differentially private nonnegative matrix factorization for recommender system[J].Information Sciences,2022.)提出了一种差分隐私非负矩阵分解算法(IDPNMF),这种方法基于目标函数扰动保证了非负性,但是存在着需要预训练,且计算量大的缺点。IDPNMF算法需要提前进行一次非负矩阵分解,以避免多次迭代导致的误差积累过大,然后进行一次差分隐私保护的推荐。除此之外,由于评分与非负矩阵分解目标函数之间的复杂相关性,对其隐私性分析是困难的,现存最优算法IDPNMF只能保证∈

DP,而目前差分隐私算法一般都要求实现(∈,δ)

DP,以让其具备更好的应用价值。

技术实现思路

[0004]为了克服上述现有技术存在的不足,本专利技术的目的在于提出了一种基于随机采样的差分隐私非负矩阵分解方法,设置噪声添加机制,在噪声引入环节加入了随机采样操作,成功避免了多次迭代导致的误差积累过大,同时兼顾了应用的隐私性和可用性,用于提高推荐系统的隐私保护能力。
[0005]为实现上述目的,本专利技术采取的技术方案为:
[0006]一种基于随机采样的差分隐私非负矩阵分解方法,包括如下步骤:
[0007]步骤1、输入原始评分数据矩阵:即系统收集的用户原始评分数据矩阵的评分数据V;
[0008]步骤2、初始化因子矩阵;
[0009]步骤3、对步骤2所述因子矩阵进行迭代优化,直到收敛或者精度达到要求;
[0010]步骤4、根据步骤3生成的因子矩阵进行推荐,计算均方根误差RMSE。
[0011]所述步骤2具体方法为:预先设置秩,根据预先设置的秩随机初始化因子矩阵:基矩阵H和系数矩阵W;基于非负矩阵分解的推荐算法将步骤1收集的评分数据V近似分解为V≈WH,然后根据WH去预测真实的评分数据V。
[0012]所述步骤3具体方法为:
[0013](3a)优化系数矩阵W:通过对当前系数矩阵W
i
进行一次更新,得到更新后的系数矩阵W
i+1
,其中上标表示迭代次数,下标表示矩阵中向量所处的行位置;
[0014](3b)优化基矩阵H:
[0015]首先,结合问题目标函数的敏感度,并预先设置隐私预算参数∈来计算生成高斯噪声声矩阵N,高斯噪声声矩阵N维度和系数矩阵W保持一致,其各元素N
ij
独立同分布于均值为零方差为σ的高斯分布;
[0016]其次,根据采样率γ生成随机采样矩阵Φ,Φ的定义为其中,Φ
ij
代表矩阵Φ的第ij元,γ∈(0,1)控制采样率,代表给W中多少比例的元素添加噪声;接下来,基于随机采样的高斯噪声添加机制可以描述为,W

=W
i+1
+Φ(γ)

N,其中,W

为添加噪声后的矩阵,

代表矩阵元素间相乘,N为高斯噪声矩阵,Φ(γ)为采样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机采样的差分隐私非负矩阵分解方法,其特征在于:包括如下步骤:步骤1、输入原始评分数据矩阵:即系统收集的用户原始评分数据矩阵的评分数据V;步骤2、初始化因子矩阵;步骤3、对步骤2所述因子矩阵进行迭代优化,直到收敛或者精度达到要求;步骤4、根据步骤3生成的因子矩阵进行推荐,计算均方根误差RMSE。2.根据权利要求1所述的一种基于随机采样的差分隐私非负矩阵分解方法,其特征在于:所述步骤2具体方法为:预先设置秩,根据预先设置的秩随机初始化因子矩阵:基矩阵H和系数矩阵W;基于非负矩阵分解的推荐算法将步骤1收集的评分数据V近似分解为V≈WH,然后根据WH去预测真实的评分数据V。3.根据权利要求1所述的一种基于随机采样的差分隐私非负矩阵分解方法,其特征在于:所述步骤3具体方法为:(3a)优化系数矩阵W:通过对当前系数矩阵W
i
进行一次更新,得到更新后的系数矩阵W
i+1
,其中上标表示迭代次数,下标表示矩阵中向量所处的行位置;(3b)优化基矩阵H:首先,结合问题目标函数的敏感度,并预先设置隐私预算参数∈来计算生成高斯噪声声矩阵N,高斯噪声声矩阵N维度和系数矩阵W保持一致,其各元素N
ij
独立同分布于均值为零方差为σ的高斯分布;其次,根据采样率γ生...

【专利技术属性】
技术研发人员:尚凡华陈飞刘红英刘园园任岩万亮
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1