一种轻量级纵向联邦学习隐私保护数据对齐方法技术

技术编号:37118139 阅读:24 留言:0更新日期:2023-04-01 05:13
本发明专利技术公开了一种轻量级纵向联邦学习隐私保护数据对齐方法,其特点是该方法采用不经意键值存储和零共享方法,可在任意数量腐败方合谋的场景下支持纵向联邦学习中高效的隐私保护数据,具体包括:系统初始化、密钥与碎片分发、键值存储生成和计算交集结果等步骤。本发明专利技术与现有技术相比具有使用轻量级的对称加密操作,且可以在任意数量腐败方合谋的情况下高效地解决纵向联邦学习隐私保护数据对齐问题,同时并不泄露各个数据集中交集外的样本ID,根据腐败方数量划分参与方的机制确保了诚实方数据集的安全,可以达到抗任意数量敌手合谋的半诚实模型和恶意模型下的安全性,从而满足了纵向联邦学习中的高效性和隐私性需求。纵向联邦学习中的高效性和隐私性需求。纵向联邦学习中的高效性和隐私性需求。

【技术实现步骤摘要】
一种轻量级纵向联邦学习隐私保护数据对齐方法


[0001]本专利技术涉及信息安全多方计算
,尤其是一种轻量级纵向联邦学习隐私保护数据对齐方法

技术介绍

[0002]随着大数据、云计算、物联网等技术的高速发展,巨量数据在互联网企业生成、汇聚、融合,企业所提供的优质服务也使得人们的生活水平日益提高。紧随时代潮流,电力行业提出了全球能源互联网发展蓝图,电力与经济发展、社会稳定和群众生活密切相关,通过对用户用电数据与其他行业数据信息的综合分析,电网可帮助政府部门了解全社会各行业发展状况,可帮助工业单位了解产业结构布局,为金融单位预测经济发展走势提供数据支撑。为了拓展内外部数据资源维度,构建电力大数据应用体系,以电网数据为核心的电力数据势必要对多方开放共享。基于电力企业信用评价隐私计算技术的关联规则挖掘就是要寻找在电力机构和外部机构对大客户信用分析同一事件中出现的不同项的相关性,所依赖的核心技术是纵向联邦学习。但是在多方开放共享的同时,跨机构的数据流动、用户数据泄露等问题,也带来了巨大的数据安全风险。为了在保障用户和企业的数据安全的同时高效地实现数据融合,可以使用安全多方计算中的隐私保护求交技术来解决纵向联邦学习中的隐私保护数据对齐问题。
[0003]在纵向联邦学习中,不同参与方的数据集中样本ID重叠较多,而样本特征存在较大差异,隐私保护数据对齐技术就是在不泄露各参与方隐私数据的前提下,寻找公共的用户数据,从而提升各自模型的效果。隐私保护数据对齐的本质是隐私保护求交,其中,多方通过协议交互来实现安全的隐私集合交集计算。根据敌手的行为,敌手模型通常可以分为以下两种:(1)半诚实模型:协议的各个参与方都将遵守协议,但敌手可以在协议的执行过程中,通过自己所获得的信息,推断其他诚实方的隐私数据信息;(2)恶意模型:敌手可以不遵守协议,如修改隐私集合的数据,提前终止协议的执行等,故需要借助更多隐私保护技术来确保协议的安全。
[0004]现有技术的许多隐私保护求交协议已经能够实现半诚实模型或恶意模型下的安全性,但许多协议所使用的公钥加密技术会带来巨大的计算和通信开销,因此难以应用于纵向联邦学习中的隐私保护数据对齐。更重要的是,国际上许多轻量级的隐私保护求交协议仅考虑了两方的应用场景,无法满足纵向联邦学习中多用户的实际需求。因此,寻求一种轻量级的纵向联邦学习隐私保护数据对齐新方法是亟待解决的挑战性公开问题。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供的一种轻量级纵向联邦学习隐私保护数据对齐方法,采用不经意键值存储和零共享,以及纵向联邦学习中多方的隐私集合求交集方法,在不泄露各个数据集中交集外样本ID的前提下,计算出各数据集公共的样本ID,可以在任意数量腐败方合谋的情况下高效地解决纵向联邦学习隐私保护数据对齐问题,实
现抗任意数量敌手合谋的高效隐私集合求交,同时根据腐败方数量划分参与方的机制确保了协议在半诚实或恶意模型下的安全性。本专利技术在半诚实或恶意模型下设计一种轻量级纵向联邦学习隐私保护数据对齐方法,其中,不经意键值存储可以基于不经意传输(OT)、混淆布谷鸟表等多种现有算法进行实现,底层的对称操作使得算法的计算和通讯开销显著降低,哈希函数可以根据输入和输出长度需求,采用不同的哈希摘要算法,比如MD5,SHA1,SHA3,SHA256算法等。多样的不经意键值存储及哈希函数的选取使得本专利技术方法更具灵活性,满足了各种高效性和隐私性需求。
[0006]本专利技术的目的是这样实现的:一种轻量级纵向联邦学习隐私保护数据对齐方法,其特点是该方法涉及n个数据拥有者P1,...,P
n
,参与方P
i
拥有包含样本ID的集合其中包含t个腐化方(t<n)。协议将按照腐化方的数量划分参与方集合,令v=n

t,则参与方集合可划分为S1={P1,...,P
v
‑1},S2={P
v
},S3={P
v+1
,...,P
n
}。S1中的参与方只需根据所拥有的样本ID生成不经意键值存储,S3中的参与方则需要根据所拥有的样本ID及零共享碎片生成不经意键值存储。S1和S3的不经意键值存储都交给P
v
,P
v
据此可以计算出公共样本ID。纵向联邦学习中多方的隐私集合求交集以及隐私保护数据对齐,具体包括以下几个步骤:
[0007](一)系统初始化阶段
[0008]系统选定不经意键值存储和伪随机函数,并根据腐化方的数量对纵向联邦学习的参与方进行分类。
[0009](二)密钥与碎片分发阶段
[0010]S1中的参与方会为S3中的每个参与方生成并分发一个对应的密钥。此外,S3中的参与方会为S3中下标超过自身的参与方生成并分发一个对应的零共享碎片。
[0011](三)键值存储生成阶段
[0012]S1中的参与方只需根据所拥有的样本ID生成不经意键值存储,其中键是样本ID,值是使用所拥有的密钥对样本ID进行伪随机函数求值的异或和。S3中的参与方需使用样本ID及零共享碎片生成不经意键值存储,其中键是样本ID,值是使用所拥有的密钥对样本ID进行伪随机函数求值的异或和再异或上所拥有的零共享碎片的异或和。默认敌手是半诚实的,若针对恶意敌手,则需要将对所有样本ID先进行哈希函数计算再使用。
[0013](四)计算交集阶段
[0014]P
v
收到来自S1和S3的不经意键值存储后,使用拥有的样本ID进行解码,并将满足条件的结果放入交集中计算交集结果,得到数据对齐后的样本ID集合。
[0015]本专利技术主要使用的参数含义详见下表1的参数列表:
[0016]表1参数列表
[0017][0018]所述步骤(一)中系统初始化的具体流程如下:
[0019]a)系统选择不经意键值存储和伪随机函数并公开Encode、Decode算法和伪随机函数F
k
(
·
);
[0020]b)假定t为腐败方人数,令v=n

t,则参与方可以分为{P1,...,P
v
‑1},P
v
,{P
v+1
,...,P
n
}。
[0021]所述步骤(二)中密钥与碎片分发的具体过程如下:
[0022]a)对于参与方P
i
为P
j
随机生成k
i,j
并将其发送给P
j

[0023]b)对于参与方P
i
为P
j
随机生成s
i,j
并将其发送给P
j

[0024]c)对于参与方P
i
计算
[0025]所述步骤(三)中键值存储生成的具体过程如下:
[0026]a)参与方P
i
(i∈[1,v
...

【技术保护点】

【技术特征摘要】
1.一种轻量级纵向联邦学习隐私保护数据对齐方法,其特征在于,该方法涉及n个数据拥有者P,

,P,参与方P拥有包含样本ID的集合其中包含t个腐化方(t<n),协议将按照腐化方的数量划分参与方集合,令v=n

t,则参与方集合可划分为S={P,

,P},S={P},S={P,

,P}。S中的参与方只需根据所拥有的样本ID生成不经意键值存储,S中的参与方则需要根据所拥有的样本ID及零共享碎片生成不经意键值存储,S和S的不经意键值存储都交给P,P据此可以计算出公共样本ID,纵向联邦学习中多方的隐私集合求交集以及隐私保护数据对齐,具体包括以下几个步骤:(一)系统初始化系统选定不经意键值存储和伪随机函数,并根据腐化方的数量对参与方进行分类;(二)密钥与碎片分发S中的参与方会为S中的每个参与方生成并分发一个对应的密钥,S中的参与方会为S中下标超过自身的参与方生成并分发一个对应的零共享碎片;(三)键值存储生成S中的参与方只需根据所拥有的样本ID生成不经意键值存储,其中键是样本ID,值是使用所拥有的密钥对样本ID进行伪随机函数求值的异或和;S中的参与方需使用样本ID及零共享碎片生成不经意键值存储,其中键是样本ID,值是使用所拥有的密钥对样本ID进行伪随机函数求值的异或和再异或上所拥有的零共享碎片的异或和;(四)计算交集P收到来自S和S的不经意键值存储后,使用拥有的样本ID...

【专利技术属性】
技术研发人员:胡聪蒋明王双张翠翠孙佳丽刘翠玲张庭曾王鹏张昀晔卢锐轩朱新华雷沁怡徐超孙琦程伟赵林燕张良培
申请(专利权)人:国网安徽省电力有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1