基于加密方式的联邦学习数据安全训练方法及系统技术方案

技术编号:38201231 阅读:7 留言:0更新日期:2023-07-21 16:43
本发明专利技术涉及数据共享领域,尤其一种基于加密方式的联邦学习数据安全训练方法及系统,该方法包括生成公私钥对,公私钥对包括一个公钥和一个私钥,并对公私钥对中的私钥进行加密;将公钥发送至多个数据训练节点,多个数据训练节点的本地训练数据形成的模型单元能够构成联邦学习模型;当任意数据训练节点生成中间结果时,将中间结果使用公钥进行加密,并将加密后的中间结果传输至其他数据训练节点;接收任意节点使用公钥进行加密后的中间结果;使用加密后的私钥对中间结果进行解密,以获取任意数据训练节点的中间结果。本发明专利技术通过在联邦学习模型的构建过程中利用公私钥对加解密流程中,解决单一私钥丢失可能引发的数据或资产被盗风险。风险。风险。

【技术实现步骤摘要】
基于加密方式的联邦学习数据安全训练方法及系统


[0001]本专利技术涉及数据共享领域,尤其涉及一种基于加密方式的联邦学习数据安全训练方法及系统。

技术介绍

[0002]在数据科学与人工智能领域,传统的机器学习方法需要在中央服务器上收集和存储所有用户的数据,然后使用这些数据来训练一个全局模型。然而,在实际场景中,由于数据隐私、带宽限制等问题,这种方法不适用。联邦学习是一种新型的机器学习方法,可以解决这些问题。在联邦学习中,每个参与方将其本地数据集用于训练本地模型。然后,参与方在中央服务器上汇总模型参数,进行全局模型更新。联邦学习模型比传统的机器学习模型更适合于保护用户隐私和进行分布式数据训练。
[0003]联邦学习中传统的私钥保存方法主要有:(1)私钥拥有方自己保存私钥,(2)私钥托管给可信第三方保存,(3)私钥通过秘密分享等方法实现分段式保存与传递,(4)私钥配合助记词保存,当私钥丢失时通过与之一一绑定的助记词找回私钥,实质上该方法的私钥是通过中心化的可信方保存。该方法只能保障丢失或忘记私钥的场景下可以通过助记词找回私钥,但不能解决因私钥泄露而导致的数据或资产被盗风险。

技术实现思路

[0004]为此,本专利技术提供一种基于加密方式的联邦学习数据安全训练方法,可以解决因私钥泄露而导致的数据或资产被盗的问题。
[0005]为实现上述目的,本专利技术一方面提供一种基于加密方式的联邦学习数据安全训练方法,包括:生成公私钥对,所述公私钥对包括一个公钥和一个私钥,并对所述公私钥对中的私钥进行加密;将所述公钥发送至多个数据训练节点,多个所述数据训练节点的本地训练数据形成的模型单元能够构成联邦学习模型;当任意所述数据训练节点生成中间结果时,将所述中间结果使用所述公钥进行加密,并将加密后的中间结果传输至其他数据训练节点;接收任意节点使用所述公钥进行加密后的中间结果;使用加密后的所述私钥对所述中间结果进行解密,以获取任意数据训练节点的中间结果。
[0006]进一步地,还包括:在接收后所述中间结果后,发送启动指令信息,发送所述启动指令信息,以使各所述数据训练节点在收到所述启动指令信息后进行下一轮的迭代训练,并将所述训练结果不间断地进行更新,以实现对所述联邦学习模型的更新。
[0007]进一步地,对所述公私钥对中的私钥进行加密包括:获取所述私钥的字符数量,并按照关键词的分布将所述私钥划分为至少两个加密
段,获取所述加密段的实际数量,每个所述加密段内至少包含一个所述关键词,获取每一所述加密段内关键词的实际数量;根据所述字符数量、所述加密段的实际数量以及每个加密段内的关键词的实际数量来确定加密方式,所述加密方式包括第一加密方式、第二加密方式和第三加密方式;所述第一加密方式根据所述字符数量与预设的字符标准数量比较的第一结果、所述加密段的实际数量与预设的标准段数比较的第二结果以及关键词的实际数量与标准关键词量比较的第三结果共同确定;所述第二加密方式根据所述字符数量与预设的字符标准数量比较的第四结果、所述加密段的实际数量与预设的标准段数比较的第五结果以及关键词的实际数量与标准关键词量比较的第六结果共同确定;所述第三加密方式根据所述字符数量与预设的字符标准数量比较的第七结果、所述加密段的实际数量与预设的标准段数比较的第八结果以及关键词的实际数量与标准关键词量比较的第九结果共同确定。
[0008]进一步地,在所述第一加密方式中,所述第一结果为字符数量大于字符标准数量,所述第二结果为加密段的实际数量大于标准段数,所述第三结果为关键词的实际数量大于标准关键词量;在所述第二加密方式中,所述第四结果为字符数量等于字符标准数量,所述第五结果为加密段的实际数量等于标准段数,所述第六结果为关键词的实际数量等于标准关键词量;在所述第三加密方式中,所述第七结果为字符数量小于字符标准数量,所述第八结果为加密段的实际数量小于标准段数,所述第九结果为关键词的实际数量小于标准关键词量。
[0009]进一步地,获取所述私钥的字符数量包括:利用设置在服务器内的截取装置来截取所述私钥的图像数据;按照所述私钥在所述图像数据内的分布状况确定私钥在所述图像数据中的占用面积;根据单位面积内的字符占据数量确定私钥占用面积对应的字符数量;并将所述字符数量作为所述图像数据中所述私钥的字符数量。
[0010]进一步地,获取所述加密段的实际数量包括:预先设置有若干关键词;分别截取每个关键词的字符串,然后在所述加密段内按照所述字符串的实际长度遍历所述加密段;确定在所述加密段内所述关键词的分布密度,并在包括一个关键词的加密段不对所述加密段进行划分;在包括大于两个关键词的加密段以实际关键词的数量/2的方式将所述加密段划分为两个部分;将所述私钥的所有行分别进行划分操作,以确定所述私钥的实际加密段。
[0011]进一步地,获取每一所述加密段内关键词的实际数量包括:获取任意关键词的实际字符长度;
将任意加密段与所述实际字符长度进行比较,若加密段的字符长度小于所述实际字符长度,则判定所述加密段内不包含所述关键词;若加密段的字符长度大于等于所述实际字符长度,则对所述加密段内包含的关键词的数量进行进一步判断;若所述关键词转化的字符与加密段内的字符串的相似度大于等于95%,则表示所述加密段内包含所述关键词,并确定在所述加密段内的字符串具有几处字符串的相似度大于等于95%,则将对应的数量作为所述加密段内关键词的实际数量。
[0012]进一步地,所述字符标准数量的计算公式为:,其中li表示在历史时段内产生的私钥对应的实际字符数量,t1为所述历史时段的起始时间,t2为所述历史时段的终止时间,n为在所述历史时段内产生的私钥的实际数量;所述标准段数的计算公式为:,其中f(x)表示任意加密段,hi表示在任意加密行内的终止位置,m表示私钥中加密行的数量;所述标准关键词量的计算公式为:,其中ki表示每个加密行内的关键词的实际数量,m表示私钥中加密行的数量;其中,T00表示字符标准数量,D00表示标准段数,K00表示标准关键词量。
[0013]进一步地,将加密后的中间结果传输至其他数据训练节点包括:预先设置有额定传输速度;在将所述中间结果进行传输之前,检测当前训练阶段与其他数据节点的实际传输距离;根据所述传输距离调整将所述中间结果传输至其他数据节点的顺序,以使所述中间结果能够同时到达其他所述数据节点。
[0014]另一方面,本专利技术还提供一种根据如上所述的基于加密方式的联邦学习数据安全训练方法的系统,该系统包括:生成模块,用以生成公私钥对,所述公私钥对包括一个公钥和一个私钥,并对所述公私钥对中的私钥进行加密;发送模块,用以将所述公钥发送至多个数据训练节点,多个所述数据训练节点的本地训练数据形成的模型单元能够构成联邦学习模型;加密模块,用以在任意所述数据训练节点生成中间结果时,将所述中间结果使用所述公钥进行加密,并将加密后的中间结果传输至其他数据训练节点;接收模块,用以接收任意节点使用所述公钥进行加密后的中间结果;解密模块,用以使用加密后的所述私钥对所述中间结果进行解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于加密方式的联邦学习数据安全训练方法,其特征在于,包括:生成公私钥对,所述公私钥对包括一个公钥和一个私钥,并对所述公私钥对中的私钥进行加密;将所述公钥发送至多个数据训练节点,多个所述数据训练节点的本地训练数据形成的模型单元能够构成联邦学习模型;当任意所述数据训练节点生成中间结果时,将所述中间结果使用所述公钥进行加密,并将加密后的中间结果传输至其他数据训练节点;接收任意节点使用所述公钥进行加密后的中间结果;使用加密后的所述私钥对所述中间结果进行解密,以获取任意数据训练节点的中间结果。2.根据权利要求1所述的基于加密方式的联邦学习数据安全训练方法,其特征在于,还包括:在接收后所述中间结果后,发送启动指令信息,发送所述启动指令信息,以使各所述数据训练节点在收到所述启动指令信息后进行下一轮的迭代训练,并将所述训练结果不间断地进行更新,以实现对所述联邦学习模型的更新。3.根据权利要求2所述的基于加密方式的联邦学习数据安全训练方法,其特征在于,对所述公私钥对中的私钥进行加密包括:获取所述私钥的字符数量,并按照关键词的分布将所述私钥划分为至少两个加密段,获取所述加密段的实际数量,每个所述加密段内至少包含一个所述关键词,获取每一所述加密段内关键词的实际数量;根据所述字符数量、所述加密段的实际数量以及每个加密段内的关键词的实际数量来确定加密方式,所述加密方式包括第一加密方式、第二加密方式和第三加密方式;所述第一加密方式根据所述字符数量与预设的字符标准数量比较的第一结果、所述加密段的实际数量与预设的标准段数比较的第二结果以及关键词的实际数量与标准关键词量比较的第三结果共同确定;所述第二加密方式根据所述字符数量与预设的字符标准数量比较的第四结果、所述加密段的实际数量与预设的标准段数比较的第五结果以及关键词的实际数量与标准关键词量比较的第六结果共同确定;所述第三加密方式根据所述字符数量与预设的字符标准数量比较的第七结果、所述加密段的实际数量与预设的标准段数比较的第八结果以及关键词的实际数量与标准关键词量比较的第九结果共同确定。4.根据权利要求3所述的基于加密方式的联邦学习数据安全训练方法,其特征在于,在所述第一加密方式中,所述第一结果为字符数量大于字符标准数量,所述第二结果为加密段的实际数量大于标准段数,所述第三结果为关键词的实际数量大于标准关键词量;在所述第二加密方式中,所述第四结果为字符数量等于字符标准数量,所述第五结果为加密段的实际数量等于标准段数,所述第六结果为关键词的实际数量等于标准关键词量;在所述第三加密方式中,所述第七结果为字符数量小于字符标准数量,所述第八结果为加密段的实际数量小于标准段数,所述第九结果为关键词的实际数量小于标准关键词量。
5.根据权利要求4所述的基于加密方式的联邦学习数据安全训练方法,其特征在于,获取所述私钥的字符数量包括:利用设置在服务器内的截取装置来截取所述私钥的图像数据;按照所述私钥在所述图像数据内的分布状况确定私钥在所述图像数据中的占用面积;根据单位面积内的字符占据数量确定私钥占用面积对应的字符数量;并将所述字符数量...

【专利技术属性】
技术研发人员:李延凯梁栋
申请(专利权)人:北京原语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1