一种轻量级纵向联邦学习隐私保护数据对齐方法技术

技术编号：37118139 阅读：24 留言：0更新日期：2023-04-01 05:13

本发明专利技术公开了一种轻量级纵向联邦学习隐私保护数据对齐方法，其特点是该方法采用不经意键值存储和零共享方法，可在任意数量腐败方合谋的场景下支持纵向联邦学习中高效的隐私保护数据，具体包括：系统初始化、密钥与碎片分发、键值存储生成和计算交集结果等步骤。本发明专利技术与现有技术相比具有使用轻量级的对称加密操作，且可以在任意数量腐败方合谋的情况下高效地解决纵向联邦学习隐私保护数据对齐问题，同时并不泄露各个数据集中交集外的样本ID，根据腐败方数量划分参与方的机制确保了诚实方数据集的安全，可以达到抗任意数量敌手合谋的半诚实模型和恶意模型下的安全性，从而满足了纵向联邦学习中的高效性和隐私性需求。纵向联邦学习中的高效性和隐私性需求。纵向联邦学习中的高效性和隐私性需求。

全部详细技术资料下载

【技术实现步骤摘要】
一种轻量级纵向联邦学习隐私保护数据对齐方法

[0001]本专利技术涉及信息安全多方计算
，尤其是一种轻量级纵向联邦学习隐私保护数据对齐方法

技术介绍

[0002]随着大数据、云计算、物联网等技术的高速发展，巨量数据在互联网企业生成、汇聚、融合，企业所提供的优质服务也使得人们的生活水平日益提高。紧随时代潮流，电力行业提出了全球能源互联网发展蓝图，电力与经济发展、社会稳定和群众生活密切相关，通过对用户用电数据与其他行业数据信息的综合分析，电网可帮助政府部门了解全社会各行业发展状况，可帮助工业单位了解产业结构布局，为金融单位预测经济发展走势提供数据支撑。为了拓展内外部数据资源维度，构建电力大数据应用体系，以电网数据为核心的电力数据势必要对多方开放共享。基于电力企业信用评价隐私计算技术的关联规则挖掘就是要寻找在电力机构和外部机构对大客户信用分析同一事件中出现的不同项的相关性，所依赖的核心技术是纵向联邦学习。但是在多方开放共享的同时，跨机构的数据流动、用户数据泄露等问题，也带来了巨大的数据安全风险。为了在保障用户和企业的数据安全的同时高效地实现数据融合，可以使用安全多方计算中的隐私保护求交技术来解决纵向联邦学习中的隐私保护数据对齐问题。
[0003]在纵向联邦学习中，不同参与方的数据集中样本ID重叠较多，而样本特征存在较大差异，隐私保护数据对齐技术就是在不泄露各参与方隐私数据的前提下，寻找公共的用户数据，从而提升各自模型的效果。隐私保护数据对齐的本质是隐私保护求交，其中，多方通过协议交互来实现安全的隐私集合交集计

【技术保护点】

【技术特征摘要】
1.一种轻量级纵向联邦学习隐私保护数据对齐方法，其特征在于，该方法涉及n个数据拥有者P,
…
,P，参与方P拥有包含样本ID的集合其中包含t个腐化方(t<n)，协议将按照腐化方的数量划分参与方集合，令v＝n
‑
t，则参与方集合可划分为S＝{P,
…
,P}，S＝{P},S＝{P,
…
,P}。S中的参与方只需根据所拥有的样本ID生成不经意键值存储，S中的参与方则需要根据所拥有的样本ID及零共享碎片生成不经意键值存储，S和S的不经意键值存储都交给P，P据此可以计算出公共样本ID，纵向联邦学习中多方的隐私集合求交集以及隐私保护数据对齐，具体包括以下几个步骤：(一)系统初始化系统选定不经意键值存储和伪随机函数，并根据腐化方的数量对参与方进行分类；(二)密钥与碎片分发S中的参与方会为S中的每个参与方生成并分发一个对应的密钥，S中的参与方会为S中下标超过自身的参与方生成并分发一个对应的零共享碎片；(三)键值存储生成S中的参与方只需根据所拥有的样本ID生成不经意键值存储，其中键是样本ID，值是使用所拥有的密钥对样本ID进行伪随机函数求值的异或和；S中的参与方需使用样本ID及零共享碎片生成不经意键值存储，其中键是样本ID，值是使用所拥有的密钥对样本ID进行伪随机函数求值的异或和再异或上所拥有的零共享碎片的异或和；(四)计算交集P收到来自S和S的不经意键值存储后，使用拥有的样本ID...

【专利技术属性】
技术研发人员：胡聪，蒋明，王双，张翠翠，孙佳丽，刘翠玲，张庭曾，王鹏，张昀晔，卢锐轩，朱新华，雷沁怡，徐超，孙琦，程伟，赵林燕，张良培，
申请(专利权)人：国网安徽省电力有限公司信息通信分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人