【技术实现步骤摘要】
一种联邦隐私计算中的数据相关性计算方法及系统
[0001]本专利技术涉及隐私计算领域,具体涉及一种联邦隐私计算中的数据相关性计算方法及系统。
技术介绍
[0002]在纵向联邦学习的机器模型训练前,需要对数据进行预处理,具体为对样本的特征数据进行筛选,以及特征数据的离散化,以便之后能够训练出更好的机器学习模型。通常为了保护纵向各参与方的数据隐私,需要联合起来计算这些特征的相关性,再根据相关性进行特征选择。为了保证数据各方的数据隐私,各参与方一般不能直接传输原始数据,通常采用需要第三方进行相关性计算。参与方需要与第三方进行多次通信,会在极大程度上降低数据的传输效率和计算效率。如果存在第三方节点,此第三方节点涉及到第三方的安全性以及数据隐私性问题,这往往会提高部署以及运算的成本。
技术实现思路
[0003]本专利技术实施例提供一种联邦隐私计算中的数据相关性计算方法及系统,解决了参与方需要与第三方进行多次通信,会在极大程度上降低数据的传输效率和计算效率的技术问题。
[0004]为达上述目的,第一方面,本专利技 ...
【技术保护点】
【技术特征摘要】
1.一种联邦隐私计算中的数据相关性计算方法,其特征在于,包括:在联邦计算两方所具有的数据相关性之前,第一方生成密钥对,所述密钥对包括公钥和私钥,将所述公钥发送给第二方;针对第二方所具有的每个变量,所述第二方将每个变量对应的第二原始数据进行数学变换,得到每个变量对应的第二变换数据,将所述第二变换数据采用所述公钥进行加密,得到加密的第二变换数据,并且将所述加密的第二变换数据发送给所述第一方;所述第一方采用私钥对加密的第二变换数据进行解密,得到第二变换数据;所述第一方具有与所述第二方的变量具有相关性的变量,所述相关性的变量对应第一原始数据,所述第一方对所述第二变换数据和所述第一原始数据进行相关性计算,保留所述第二变换数据和所述第一原始数据内具有相关性的数据。2.根据权利要求1所述的联邦隐私计算中的数据相关性计算方法,其特征在于,所述第二方将每个变量对应的第二原始数据进行数学变换,得到每个变量对应的第二变换数据,具体包括由所述第二方执行的如下步骤:对每个变量对应的第二原始数据按抽样量进行抽样,得到对应的样本;其中,样本的抽样量为第一预设比例和第一预设数量中的较大者;设置原始随机数区间;针对每个变量的样本,分别生成属于原始随机数区间内的任一随机数,将生成的所述任一随机数的倒数作为第一随机数,将所述第一随机数的相反数作为第二随机数,将所述第一随机数和所述第二随机数分别作为区间边界值构成第一随机数区间,自所述第一随机数区间内分别选择任一随机数分别作为每个变量对应的变换随机数,将每个变量的每个样本与对应的变换随机数之积与所述样本之和作为样本变换值,将所有所述样本变换值作为非缺失样本形成第二变换数据;其中,所述样本变换值在所述第二变换数据内的位置、所述样本变换值对应的样本在所述第二原始数据内的位置相同。3.根据权利要求2所述的联邦隐私计算中的数据相关性计算方法,其特征在于,在所述将每个变量的每个样本与对应的变换随机数之积与所述样本之和作为样本变换值之后,将所有所述样本变换值作为非缺失样本形成第二变换数据之前,还包括由所述第二方执行的如下步骤:针对每个变量,判断每个样本变换值的最大值与最小值之差是否不小于预设差值;若样本变换值的最大值与最小值之差大于预设差值,则对该变量的样本变换值进行归一化处理,将该变量的样本变换值压缩在[0,1]之间。4.根据权利要求2所述的联邦隐私计算中的数据相关性计算方法,其特征在于,在所述第一方对所述第二变换数据和所述第一原始数据进行相关性计算之前,还包括由所述第一方执行的如下步骤:针对每个变量,自第二变换数据中找出所述非缺失样本,自所述第一原始数据内找出与所述非缺失样本的位置对齐的数据,然后将对齐的数据进行相关性计算。5.根据权利要求1所述的联邦隐私计算中的数据相关性计算方法,其特征在于,所述第一方生成密钥对,具体包括:所述第一方采用同态加密或者高级加密标准AES生成密钥对。6.一种联邦隐私计算中的数据相关性计算系统,其特征在于,包括第一方和第二方,所
述第一方和所述第二方分别具有不同的变量,且所述第一方具有的变量与所述第二方的变量具有相关性;所述第一方的各变量分别对应有第一原始数据,所述第二方的各变量分别对应有第二原始数据;所述第一方包括密钥对生成单元、解密单元和相关性计算单元;所述第二方包括数据变换单元,其中:所述密钥对生成单元,用于在联邦计算两方所具有的数据相关性之前,生成密钥对,所述密钥对包括公钥和私钥,将所述公钥发送给所述数据变换单元;所述数据变换单元,用于针对所具有的每个变量,将每个变量对应的第二原始数据进行数学变换,得到每个变量的第二变换数据,将所述第二变换数据采用所述公钥进行加密,得到加密的第二变换数据;并且将所述加密的第二变换数据发送给所述解密单元;所述解密单元,用于采用所述私钥对所述加密的第二变换数据进行解密,得到所述第二变换数据;所述相关性计算单元,用于对所述第二变换数据和所述第一原始数据进行相关性计算,保留所述第二变换数据和所述第一原始数据内具有相关性的数据。7.根据权利要求6所述的联邦隐私计算中的数据相关性计算系统,其特征在于,所述数据变换单元,包括:抽样子单元,用于对所述第二方的每个变量对应的所述第二原始数据按抽样量进行抽样,得到对应的样本;其中,样本的抽样量为第一预设比例和第一预设数量中的较大者;随机数生成子单元,用于设置原始随机数区间;针对每个变量的样本,分别生成属于随机数区间内的任一随机数,将生成的所述任一随机数的倒数作为第一随机数,将所述第一随机数的相反数作为第二随机数,将所述第一随机数和所述第二随机数分别作为区间边界值构成第一随机数区间,自所述第一随机数区间内分别选择...
【专利技术属性】
技术研发人员:田健,薛瑞东,
申请(专利权)人:北京融数联智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。