System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 联邦学习用训练数据的生成方法和装置、设备和介质制造方法及图纸_技高网

联邦学习用训练数据的生成方法和装置、设备和介质制造方法及图纸

技术编号:40035862 阅读:6 留言:0更新日期:2024-01-16 18:57
本公开实施例公开了一种联邦学习用训练数据的生成方法和装置、设备和介质,其中,方法包括:第一计算设备和第二计算设备分别利用隐私求交方式和多方安全计算方式对第一样本数据集和第二样本数据集进行处理,得到第一样本数据集和第二样本数据集的标识交集对应的秘密分享态的特征数据矩阵和标签数据列向量,之后通过秘密分享态的特征数据矩阵和标签数据列向量构建得到各方的秘密分享态的训练数据集。本公开不仅保证了第一样本数据集和第二样本数据集中非标识交集部分的数据的隐私性,而且解决了数据孤岛的问题,进而提高了训练得到的模型的性能。

【技术实现步骤摘要】

本公开涉及训练数据集生成技术、联邦模型训练技术,尤其是一种联邦学习用训练数据的生成方法和装置、设备和介质


技术介绍

1、随着机器学习技术的不断发展,基于机器学习生成的模型也越来越广泛的应用在人们生活的方方面面。为了保证模型对数据的分析处理能力,前期需要通过大量的数据对模型进行训练。但是在实际场景中,由于有些数据涉及到个人隐私,例如,存款数据、保险数据、信用数据等。这些隐私数据会被严格保密,因此不会用于模型训练,由此导致模型的训练数据欠缺,从而影响训练得到的模型的性能。


技术实现思路

1、为解决上述问题,本公开实施例提供一种联邦学习用训练数据的生成方法和装置、设备和介质。

2、本公开实施例的一个方面,提供了一种联邦学习用训练数据的生成方法,包括:第一计算设备和第二计算设备分别作为一方的计算设备,基于隐私求交方式,对第一标识列和第二标识列进行隐私集合求交,得到标识交集、以及另一方的样本数据集中属于所述标识交集的标识的行索引集合;其中,所述第一标识列包括对第一样本数据集中各第一样本的标识混淆得到的第一标识,所述第一样本数据集包括各第一标识对应的第一样本、所述第一样本的第一特征数据和标签数据;所述第二标识列包括对第二样本数据集中各第二样本的标识混淆得到的第二标识,所述第二样本数据集包括各第二标识对应第二样本、所述第二样本的第二特征数据;所述一方的计算设备基于另一方的行索引集合,构造所述另一方的交集数据提取矩阵;所述一方的计算设备分别基于所述一方的交集数据提取矩阵和所述另一方的交集数据提取矩阵,利用多方安全计算方式,得到秘密分享态的标识交集对应的特征数据矩阵和标签数据列向量;其中,所述一方和所述另一方分别持有所述特征数据矩阵的一部分、所述标签数据列向量的一部分;所述一方的计算设备基于所述特征数据矩阵和所述标签数据列向量,构建得到所述一方的秘密分享态的训练数据集;利用所述第一计算设备和所述第二计算设备分别得到的秘密分享态的训练数据集,联合进行模型训练。

3、本公开实施例的另一个方面,提供了一种联邦学习用训练数据的生成装置,包括:隐私求交模块,用于第一计算设备和第二计算设备分别作为一方的计算设备,基于隐私求交方式,对第一标识列和第二标识列进行隐私集合求交,得到标识交集、以及另一方的样本数据集中属于所述标识交集的标识的行索引集合;其中,所述第一标识列包括对第一样本数据集中各第一样本的标识混淆得到的第一标识,所述第一样本数据集包括各第一标识对应的第一样本、所述第一样本的第一特征数据和标签数据;所述第二标识列包括对第二样本数据集中各第二样本的标识混淆得到的第二标识,所述第二样本数据集包括各第二标识对应第二样本、所述第二样本的第二特征数据;矩阵构建模块,用于所述一方的计算设备基于另一方的行索引集合,构造所述另一方的交集数据提取矩阵;特征提取模块,用于所述一方的计算设备分别基于所述一方的交集数据提取矩阵和所述另一方的交集数据提取矩阵,利用多方安全计算方式,得到秘密分享态的标识交集对应的特征数据矩阵和标签数据列向量;其中,所述一方和所述另一方分别持有所述特征数据矩阵的一部分、所述标签数据列向量的一部分;训练集构建模块,用于所述一方的计算设备基于所述特征数据矩阵和所述标签数据列向量,构建得到所述一方的秘密分享态的训练数据集;模型训练模块,用于利用所述第一计算设备和所述第二计算设备分别得到的秘密分享态的训练数据集,联合进行模型训练。

4、本公开实施例的又一个方面,提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现联邦学习用训练数据的生成方法。

5、本公开实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现的联邦学习用训练数据的生成方法。

6、本公开提供了一种联邦学习用训练数据的生成方法和装置、设备和介质,通过利用隐私求交方式和多方安全计算方式,获得第一样本数据集和第二样本数据集的标识交集对应的秘密分享态的特征数据矩阵和标签数据列向量,之后通过秘密分享态的特征数据矩阵和标签数据列向量构建得到各方的秘密分享态的训练数据集。由此本公开实施例不仅保证了第一样本数据集和第二样本数据集中非标识交集部分的数据的隐私性,而且由于第一计算设备和第二计算设备均持有的秘密分享态的训练数据集,使得第一计算设备和第二计算分别持有部分标识交集对应的第一特征数据、第二特征数据和标签数据,由此在不泄露隐私数据前提下,实现了使各方均获得第一样本数据集和第二样本数据集的交集的数据,从而使各方可以利用上述的交集进行联合训练,由此解决了数据孤岛的问题,提高了训练得到的模型的性能。

7、另外,由于第一标识列和第二标识列中的标识均通过混淆处理,由此避免了拥有数据量较小的样本数据集中的数据被标识交集全部暴露的问题,不仅进一步提高了隐私数据的安全性,而且也有效的避免了数据孤岛形成。

8、下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

本文档来自技高网...

【技术保护点】

1.一种联邦学习用训练数据的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于隐私求交方式,对第一标识列和第二标识列进行隐私集合求交,得到标识交集、以及另一方的样本数据集中属于所述标识交集的标识的行索引集合之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于隐私求交方式,对第一标识列和第二标识列进行隐私集合求交,得到标识交集、以及另一方的样本数据集中属于所述标识交集的标识的行索引集合之前,还包括:

4.根据权利要求3所述的方法,其特征在于,所述一方通过如下方式得到所述另一方的样本数据集中属于所述标识交集的标识的行索引集合:

5.根据权利要求1所述的方法,其特征在于,所述一方的计算设备基于另一方的行索引集合,构造所述另一方的交集数据提取矩阵,包括:

6.根据权利要求1所述的方法,其特征在于,所述一方的计算设备分别基于所述一方的交集数据提取矩阵和所述另一方的交集数据提取矩阵,利用多方安全计算方式,得到秘密分享态的标识交集对应的特征数据矩阵和标签数据列向量,包括:

7.根据权利要求6所述的方法,其特征在于,所述一方的计算设备分别获取秘密分享态的各第一特征数据、秘密分享态的各标签数据,包括:

8.一种联邦学习用训练数据的生成装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现上述权利要求1-7任一所述的联邦学习用训练数据的生成方法。

...

【技术特征摘要】

1.一种联邦学习用训练数据的生成方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于隐私求交方式,对第一标识列和第二标识列进行隐私集合求交,得到标识交集、以及另一方的样本数据集中属于所述标识交集的标识的行索引集合之前,还包括:

3.根据权利要求2所述的方法,其特征在于,所述基于隐私求交方式,对第一标识列和第二标识列进行隐私集合求交,得到标识交集、以及另一方的样本数据集中属于所述标识交集的标识的行索引集合之前,还包括:

4.根据权利要求3所述的方法,其特征在于,所述一方通过如下方式得到所述另一方的样本数据集中属于所述标识交集的标识的行索引集合:

5.根据权利要求1所述的方法,其特征在于,所述一方的计算设备基于另一方的行索引集...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:北京瑞莱智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1