一种基于混合加密的高效联邦数据相关性计算方法技术

技术编号:39497138 阅读:7 留言:0更新日期:2023-11-24 11:26
本发明专利技术是一种基于混合加密的高效联邦数据相关性计算方法,包括将各自的特征数据生成做点乘运算的张量

【技术实现步骤摘要】
一种基于混合加密的高效联邦数据相关性计算方法


[0001]本专利技术涉及基于混合加密的高效联邦数据相关性计算方法领域


技术介绍

[0002]联邦机器学习是隐私计算在机器学习领域的应用,在不泄露各方隐私数据的情况下,能够融合多方的数据,通过机器学习算法,训练模型,进行预测

目前,联邦学习的安全模型多为半诚实模型

[0003]特征工程是一种在机器学习工程中的数据预处理方法,对样本的特征数据进行筛选,以及特征数据的离散化,以便之后能够训练出更好的机器学习模型

[0004]皮尔森
(Pearson)
系数是一种计算数据相关性的方法,可以用在特征工程中,计算样本数据特征之间的相关性,以便筛选出对整体模型预测作用不大,无关多余的特征

方便后期进行更好,更高效的机器学习模型训练

[0005]安全多方计算是一类密码学技术,也是当前密码学领域的一个热门研究方向,属于隐私计算范畴

主要用于两方或者多方希望在不泄露自己隐私输入数据的情况下,根据各方输入数据,共同计算一个函数结果

安全多方计算除了最终结果之外,每一方的输入都能保持隐私性

[0006]该研究方向起源于图灵机获得者姚期智提出的百万富翁问题,初期的解决方案效率较低,并不实用

近年来,随着该类技术的不断发展,效率大大提高,并开始逐步有实际落地应用

[0007]全同态加密是一种对密文可以进行任意计算
(
分为算术上的加法,乘法,或者逻辑比特位上的异或与
AND)
,解密后得到的结果是相应明文进行相同计算结果的一种加密算法

[0008]目前,由于全同态加密在应用上往往存在效率和存储上的限制,应用更加广泛的是半同态加密,或者有限级数的全同态加密

其中半同态加密算法只支持密文加法或者乘法的同态运算

[0009]混合加密是一种将大量密文转化为明文加少量密文的技术,可以用于在涉及大量密文传输的场景中,减少密文传输开销

[0010]联邦学习是
2017
年由
Google
提出,通过融合多个用户的数据,通过机器学习算法,训练更准确的模型,以便更好的为用户提供推荐等服务

同时,为了更好保护用户的隐私,用户无需传递隐私数据给
Google
这样的中间服务商,所有机器学习训练对数据的计算都在用户本地完成,所有用户只需要将梯度等最终结果传输给
Google
即可,最后由
Google
做最终结果的整合,整合好后,将新的模型发送给所有用户

所有用户进行新的一轮的学习训练过程,周而复始,直至有满意的模型输出

[0011]联邦学习由于能够在保护用户数据隐私的条件下,消除数据孤岛,联合各方数据训练更好的预测模型,提供更好的服务

因此自此概念提出后,便受到各方关注,不少互联网,金融等企业纷纷踏足联邦学习领域

[0012]微众便是其中一员,其提出的联邦学习框架
FATE
,针对金融领域,使得企业之间数据能够安全共享,进行机器学习训练

由于其简单实用高效,且开源,吸引了大批使用者,在
github
有大约
5.1k
的加星以及
1.5k
的分支

[0013]在
FATE
的技术框架中,特征工程是非常重要的一环,能够剔除一些无关的特征,离散化特征数据等,以便训练出更准确,更符合实际应用场景的机器学习模型

[0014]其中,特征之间的
Pearson
系数被用来确定特征之间的线性相关性,并以此用来剔除其中线性相关性较大的特征,以便更好进行机器学习

[0015]然而,
FATE
的参与方之间特征数据
Pearson
系数的计算参考了多方计算框架
SPDZ
,其中的
Beaver Triplets
三元组的生成涉及大量的
Paillier
同态加密运算

这样的计算过程使其在大规模数据量的特征相关性计算变得及其缓慢,比如几千万规模的数据的时候,一天时间都无法完成计算任务,这使得
FATE
的数据相关性计算变得很不实用

[0016]这样使用了大量的
Pail lier
同态公钥加密运算来生成
Beaver Triplets
,设计大量的同态加密,密文运算以及密文传输,导致
FATE
整体相关性系数的计算比较低效,在大规模数据的情况下并不实用


技术实现思路

[0017]本专利技术针对上述不足,提供一种基于混合加密的高效联邦数据相关性计算方法,该方法去掉生成
Beaver Triplets
的过程,直接使用半同态加密进行相关系数矩阵的计算,减少加密,密文运算几密文传输,并且使用混合加密技术,来进一步减少协议过程中的密文传输

[0018]本专利技术为实现其技术目的所采用的技术方案是:一种基于混合加密的高效联邦数据相关性计算方法,参与的双方为
A
方和
B
方,采用皮尔森计算方法,包括以下步骤:
[0019]步骤
S1、
参与计算相关性系数的双方
A

B
,将各自的特征数据生成做点乘运算的张量
x

y

[0020]步骤
S2、
参与方
A
本地生成
Paillier
加密的公钥
PK
,私钥
SK

[0021]步骤
S3、
参与方
A
本地生成一个随机数
k
并加密
Enc
pk
(k)
,一个随机
nonce
值;
A

Enc
pk
(k)

nonce
发送给
B

[0022]步骤
S4、
参与方
A
通过
k

nonce
生成密钥流
ks
,然后使用
ks

x
进行
mask
处理生成
Mask
k

nonce
(x)
;生成后,参与方
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于混合加密的高效联邦数据相关性计算方法,参与的双方为
A
方和
B
方,采用皮尔森计算方法,其特征在于:包括以下步骤:步骤
S1、
参与计算相关性系数的双方
A

B
,将各自的特征数据生成做点乘运算的张量
x

y
;步骤
S2、
参与方
A
本地生成
Paillier
加密的公钥
PK
,私钥
SK
;步骤
S3、
参与方
A
本地生成一个随机数
k
并加密
Enc
pk
(k)
,一个随机
nonce
值;
A

Enc
pk
(k)

nonce
发送给
B
;步骤
S4、
参与方
A
通过
k

nonce
生成密钥流
ks
,然后使用
ks

x
进行
mask
处理生成
Mask
k

nonce
(x)
;生成后,参与方
A
发送给参与方
B
;这里
Mask
k

nonce
(x)
为明文形式;步骤
S5、
参与方
B
通过参与方
A
发送过来的
nonce
以及
Mask
k

nonce
(x)

Enc
pk
(k)
,计算得到张量
x
加密后的密文
Enc
pk
(x)
;步骤
S6、
参与方
B
通过
Paillier
密文计算,计算
y

Enc
pk
(x)
的点积
EncDot(x

y)

Dot(Enc
pk
(x)

y...

【专利技术属性】
技术研发人员:谈扬彭彦雄
申请(专利权)人:深圳前海新心数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1