一种数据纵向切分下保护隐私的动态关联预测方法及装置制造方法及图纸

技术编号:37356190 阅读:9 留言:0更新日期:2023-04-27 07:06
本发明专利技术提出了一种数据纵向切分下保护隐私的动态关联预测方法及装置,方法包括:获取至少三个数据方矩阵;进行初始化;分别确定对全局用户矩阵的第一更新值、第二更新值、第三更新值;确定全局用户矩阵的本次迭代总更新值,并根据本次迭代总更新值对全局用户矩阵进行更新;迭代直至达到预设的全局模型迭代次数;基于迭代完成后所得到的全局用户矩阵,利用第一数据方矩阵确定预测结果。本发明专利技术相较于现有技术,至少具备以下优点:本对数值型的用户与数据间的关联信息进行了隐私保护、加强了使用联邦学习过程中的安全性和隐私性、降低了在融合不同数据方数据时的通信开销。在融合不同数据方数据时的通信开销。在融合不同数据方数据时的通信开销。

【技术实现步骤摘要】
一种数据纵向切分下保护隐私的动态关联预测方法及装置


[0001]本专利技术涉及差分隐私的动态关联
,尤其涉及一种数据纵向切分下保护隐私的动态关联预测方法及装置。

技术介绍

[0002]随着社会信息化和网络化的发展,数据俨然已成为信息时代重要的基础性战略资源和关键性生产要素。动态关联分析,是指基于用户过往的数据使用信息,以及用户之间的社会网络信息,来预测特定用户感兴趣的数据。动态关联分析一方面可以为用户提供推荐服务,从而帮助用户解决数据爆炸式增长带来的信息过载问题,另一方面也可以帮助系统来检测用户对数据的异常读写需求,从而发现恶意的或者已经被攻击者攻陷的用户账户,因而有着广泛的应用场景。
[0003]对于动态关联分析方案来说,当拥有更充足的用户数据时,给出的预测结果通常也会更加准确。然而,同一用户的不同类型的数据可能分布在不同的数据方,同时各个数据方出于利益和法规的原因,不能直接交换各自所拥有的原始用户数据。那么,数据方如何在保护各自用户数据隐私的前提下,通过有效的协作共享来提升动态化分析算法的表现?差分隐私通过对数据集加入噪声数据进行微小扰动,以此实现更改单一数据实例并不影响数据集对特定问题的可用性。差分隐私作为一种保护隐私的理论框架,能够提供严格的隐私保护证明,同时支持对系统的隐私保护程度进行定量的组合分析,因而成为面向机器学习的最有前途的隐私保护途径之一,也是动态关联分析算法中保护隐私的重要技术。
[0004]现有基于差分隐私的动态关联分析方案的研究工作相对较少,已有的几种方法也都有一定的局限性,只能应用于二值型的用户与数据关系或者对用户的隐私保护强度有限。具体来说,2014年Jorgensen等在扩展数据库技术国际会议上发表的《A privacy

preserving framework for personalized,social recommendations》一文和2018年Guo等在国际期刊《Information Sciences》上发表的《Differentially private graph

link analysis based social recommendation》一文,提出的方法都只适用于用户与数据之间的关系是二值型的,即用户最近使用过或者未使用过某一数据,但不能反映用户对数据的使用频次(即用户与数据之间的关系是数值型的)。为此,2017年Xian等人在高性能计算与通信国际会议上发表的《PPTrustCF:A new privacy protection algorithm for trust collaborative filtering》一文和2018年Meng等人在AAAI人工智能会议上发表的《Personalized privacy

preserving social recommendation》一文分别提出了针对数值型数据的基于差分隐私的社会化推荐算法,由于在目标函数上或梯度计算中的误差值上添加拉普拉斯噪声,虽然保护数值型的用户与数据关系的隐私,而用户是否使用过某一数据,是可以通过预测结果推断出来的,因此隐私保护强度有限。
[0005]为了提高动态关联分析预测结果的准确性和成功率,有时需要融合不同数据方(如不同的网站)所拥有的数据。根据数据融合的情况,可主要分为数据横向切分和数据纵向切分。前者指的是不同数据方拥有不相交的用户对相同数据项的评价数据(或用户使用
数据的频次等用户与数据项的对应关系)。后者通常指的是不同数据方拥有相同用户对不相交的数据项集的评价数据(或用户使用数据的频次等用户与数据项的对应关系)。数据纵向切分在动态关联分析中更为常见,如2020年Shmueli等在国际期刊《ACM Transactions on Intelligent Systems and Technology》上发表的《Mediated secure multi

party protocols for collaborative filtering》一文。此外,2019年Yang等在国际期刊《ACM Transactions on Intelligent Systems and Technology》上发表的《Federated machine learning:Concept and applications》则引入了另一种数据纵向切分的概念,即一个数据方拥有用户使用数据的情况,而另一个数据方拥有关于这些用户的用户特征信息,并提出了一种基于矩阵分解技术的联邦推荐算法。
[0006]联邦学习是一种保护数据隐私的分布式机器学习技术,数据不需要离开本地,而是通过参数交换来联合建立一个全局的共享模型。将联邦学习用于动态关联分析,来实现数据融合时的隐私保护,存在两个主要问题:首先,联邦学习作为隐私保护技术仍有缺陷,它主要保护用户终端收集数据过程中的安全性,但训练模型及其使用过程中还是可以恢复部分训练样本的信息。其次,使用联邦学习的动态关联分析时往往会导致推荐结果有损、运行效率较低。

技术实现思路

[0007]本专利技术要解决的技术问题是:
[0008]1)差分隐私是一种有效的隐私保护机制,但将其应用于动态关联分析时,会出现保护信息不全面、支持数据类型受限等问题。即,适用于对二值型数据的隐私保护;而将其用于数值型数据时,可以保护数值的隐私,但对用户是否使用了数据这一敏感信息起不到保护作用。
[0009]2)当动态关联分析使用联邦学习时,它对数据(即训练样本)的隐私保护是指本地数据不需要上传到参数服务器,但训练模型及其使用过程还是有可能泄露数据的部分信息。
[0010]3)当需要融合不同数据方之间的数据时,就会导致系统增加了不同数据方之间的通信开销,需要在保证系统安全和推荐准确的条件对系统的通信开销进行优化。
[0011]有鉴于此,本专利技术提供一种数据纵向切分下保护隐私的动态关联预测方法及装置。
[0012]本专利技术采取的技术方案是,所述一种数据纵向切分下保护隐私的动态关联预测方法,包括:
[0013]获取至少三个数据方矩阵,其中,第一数据方矩阵和第二数据方矩阵中预先配置有用户使用数据项的情况,第三数据方矩阵中预先配置有用户的信任关系;
[0014]初始化以得到全局用户矩阵以及所述第一数据方矩阵在本地保存的第一数据项矩阵;
[0015]利用所述全局用户矩阵以及所述第一数据项矩阵,确定对所述全局用户矩阵的第一更新值;
[0016]利用所述第二数据方矩阵,确定对所述全局用户矩阵的第二更新值;
[0017]利用所述第三数据方矩阵,确定对所述全局用户矩阵的第三更新值;
[0018]确定所述全局用户矩阵的本次迭代总更新值,并根据所述本次迭代总更新值对所述全局用户矩阵进行更新,其中,所述本次迭代总更新值是基于所述第一更新值、所述第二更新值、所述第三更新值确定的;
[0019]迭代直至达到预设的全局模型迭代次数;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据纵向切分下保护隐私的动态关联预测方法,其特征在于,包括:获取至少三个数据方矩阵,其中,第一数据方矩阵和第二数据方矩阵中预先配置有用户使用数据项的情况,第三数据方矩阵中预先配置有用户的信任关系;初始化以得到全局用户矩阵以及所述第一数据方矩阵在本地保存的第一数据项矩阵;利用所述全局用户矩阵以及所述第一数据项矩阵,确定对所述全局用户矩阵的第一更新值;利用所述第二数据方矩阵,确定对所述全局用户矩阵的第二更新值;利用所述第三数据方矩阵,确定对所述全局用户矩阵的第三更新值;确定所述全局用户矩阵的本次迭代总更新值,并根据所述本次迭代总更新值对所述全局用户矩阵进行更新,其中,所述本次迭代总更新值是基于所述第一更新值、所述第二更新值、所述第三更新值确定的;迭代直至达到预设的全局模型迭代次数;基于迭代完成后所得到的全局用户矩阵,利用所述第一数据方矩阵确定预测结果。2.根据权利要求1所述的数据纵向切分下保护隐私的动态关联预测方法,其特征在于:当数据方矩阵的数量大于三个时,在已经确定所述第一数据方矩阵的情况下,若一数据方矩阵中预先配置有用户使用数据项的情况,则作为所述第二数据方矩阵进行处理,若一数据方矩阵中预先配置有用户的信任关系,则作为所述第三数据方矩阵进行处理。3.根据权利要求1所述的数据纵向切分下保护隐私的动态关联预测方法,其特征在于,所述初始化以得到全局用户矩阵以及所述第一数据方矩阵在本地保存的第一数据项矩阵的步骤中,是采用随机值初始化以得到全局用户矩阵。4.根据权利要求1所述的数据纵向切分下保护隐私的动态关联预测方法,其特征在于,所述利用所述全局用户矩阵以及所述第一数据项矩阵,确定对所述全局用户矩阵的第一更新值,包括:将所述第一数据方矩阵配置为全局用户矩阵;随机选取至少两条数据项数据,利用预先配置的第一算法,确定所述数据项数据对所述第一数据方矩阵以及所述第一数据项矩阵对应的梯度,即第一数据方梯度以及第一数据项梯度;利用预先配置的第三算法,确定所述第一数据方梯度以及所述第一数据项梯度的平均值;利用预先配置的第四算法,确定平均值对应的加噪梯度平均值;利用预先配置的学习率,基于加噪梯度平均值对所述第一数据方矩阵以及所述第一数据项矩阵进行更新,以获得更新后的所述第一数据方矩阵;将更新后的所述第一数据方矩阵以及所述全局用户矩阵的差值,确定为本次迭代中所述全局用户矩阵的更新量;进行迭代更新直至达到预设的第一数据方矩阵迭代次数,以得到所述第一更新值。5.根据权利要求1所述的数据纵向切分下保护隐私的动态关联预测方法,其特征在于,所述利用所述第二数据方矩阵,确定对所述全局用户矩阵的第二更新值,包括:将所述第二数据方矩阵配置为全局用户矩阵;利用预先配置的第一算法,确定已获取的数据项数据对所述第二数据方矩阵以及第二
数据项矩阵对应的梯度,即第二数据方...

【专利技术属性】
技术研发人员:王媛金昊周雪翎董文祥王迎雪李阳阳孙启彬张驰
申请(专利权)人:中国科学技术大学先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1