联邦学习方法、装置、系统、设备、介质和程序产品制造方法及图纸

技术编号:34627723 阅读:55 留言:0更新日期:2022-08-20 09:36
本公开提供了一种联邦学习方法、装置、系统、电子设备、非瞬时计算机可读存储介质和计算机程序产品,涉及计算机技术领域,尤其涉及联邦学习领域、隐私计算领域,可用于对隐私数据进行管理。实现方案为:从数据管理系统获取该参与方的第一数据集的第一ID集;获取多个参与方的ID交集,ID交集为基于第一ID集和多个参与方中其他参与方的第二数据集的第二ID集来获得的,其中第二ID集的ID类型与第一ID集的ID类型相同;以及基于ID交集,从数据管理系统获取第一数据集中与联邦学习任务相关联的特征数据,以与其他参与方基于各自的特征数据执行联邦学习任务的后续子任务。联邦学习任务的后续子任务。联邦学习任务的后续子任务。

【技术实现步骤摘要】
联邦学习方法、装置、系统、设备、介质和程序产品


[0001]本公开涉及计算机
,尤其涉及联邦学习领域、隐私计算领域,可用于对隐私数据进行管理,具体涉及一种联邦学习方法、装置、系统、电子设备、非瞬时计算机可读存储介质和计算机程序产品。

技术介绍

[0002]联邦机器学习(Federated Machine Learning),又名联邦学习(Federated Learning),是一个机器学习框架,能有效帮助多个参与方在满足用户隐私保护和数据安全下,进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上完成联合学习任务,能从技术上打破数据孤岛,实现AI(Artificial Intelligence)协作。
[0003]联邦学习定义了机器学习框架,在此框架下可以通过设计虚拟模型来解决不同数据拥有方在不交换数据(尤其是隐私数据)的情况下进行协作的问题。虚拟模型是各方将数据聚合在一起的最优模型,联邦学习的目标是虚拟模型无限接近按照传统建模模式所得到的模型,即将多个数据拥有方的数据汇聚到一处进行建模所得到的模型。在联邦机制下,各参与方(即数据拥有方)的身份和地位相同,可建立共享数据策略。由于数据不发生转移,因此不会泄露用户隐私或影响隐私数据规范。需要说明的,联邦学习任务不局限于联邦建模,例如还可以为联邦查询任务、联邦统计任务等。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种联邦学习方法、装置、系统、电子设备、非瞬时计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种联邦学习方法,应用于执行同一联邦学习任务的多个参与方中的任一个参与方,其中,方法包括:从数据管理系统获取该参与方的第一数据集的第一ID集;获取多个参与方的ID交集,ID交集为基于第一ID集和多个参与方中其他参与方的第二数据集的第二ID集来获得的,其中第二ID集的ID类型与第一ID集的ID类型相同;以及基于ID交集,从数据管理系统获取第一数据集中与联邦学习任务相关联的特征数据,以与其他参与方基于各自的特征数据执行联邦学习任务的后续子任务。
[0007]根据本公开的另一方面,提供了一种联邦学习方法,应用于与执行同一联邦学习任务的多个参与方分别通信连接的协作方,其中,方法包括:从多个参与方获取多个ID集,其中多个ID集的ID类型相同;计算多个ID集的交集,以得到ID交集;以及向多个参与方中的每个参与方发送ID交集,以使得多个参与方分别基于ID交集获取与联邦学习任务相关联的特征数据,进而使得多个参与方基于各自的特征数据执行联邦学习任务的后续子任务。
[0008]根据本公开的另一方面,提供了一种数据管理方法,应用于与执行同一联邦学习任务的多个参与方中的任一个参与方通信连接的数据管理系统,其中,方法包括:获取该参与方的第一数据集;响应于接收到该参与方的ID获取请求,向该参与方发送第一数据集的第一ID集;获取多个参与方的ID交集;响应于接收到该参与方的特征获取请求,基于ID交集,向该参与方发送第一数据集中与联邦学习任务相关联的特征数据,以使得多个参与方基于各自的特征数据执行联邦学习任务的后续子任务。
[0009]根据本公开的另一方面,提供了一种联邦学习装置,应用于执行同一联邦学习任务的多个参与方中的任一个参与方,其中,装置包括:第一ID获取模块,被配置用于从数据管理系统获取该参与方的第一数据集的第一ID集;交集获取模块,被配置用于获取多个参与方的ID交集,ID交集为基于第一ID集和多个参与方中其他参与方的第二数据集的第二ID集来获得的,其中第二ID集的ID类型与第一ID集的ID类型相同;以及特征获取模块,被配置用于基于ID交集,从数据管理系统获取第一数据集中与联邦学习任务相关联的特征数据,以与其他参与方基于各自的特征数据执行联邦学习任务的后续子任务。
[0010]根据上述联邦学习装置,其中,交集获取模块被配置用于与其他参与方合作计算第一ID集与第二ID集的交集,以得到ID交集。
[0011]根据上述联邦学习装置,其中,多个参与方分别与协作方通信连接,交集获取模块包括:发送子模块,被配置用于向协作方发送第一ID集;获取子模块,被配置用于从协作方获取ID交集,其中ID交集是协作方计算得到的第一ID集与第二ID集的交集,其中第二ID集是协作方从其他参与方获取的。
[0012]根据上述联邦学习装置,其中,数据管理系统内置有关系型数据库,第一数据集以关系型数据的形式被存储在关系型数据库中。
[0013]根据上述联邦学习装置,其中,第一ID集对应关系型数据库中的与预设ID类型相应的一列数据集合。
[0014]根据上述联邦学习装置,其中,特征获取模块包括:特征选择子模块,被配置用于从关系型数据库中获取与ID交集相对应的全量特征数据;特征连接子模块,被配置用于连接全量特征数据,以生成与联邦学习任务相关联的特征数据。
[0015]根据上述联邦学习装置,其中,特征获取模块包括:特征选择子模块,被配置用于从关系型数据库中获取与ID交集相对应的多个预设属性列的特征数据;特征连接子模块,被配置用于连接多个预设属性列的特征数据,以生成与联邦学习任务相关联的特征数据。
[0016]根据上述联邦学习装置,其中,联邦学习任务的后续子任务包括联邦建模任务、联邦预测任务、联邦查询任务、联邦统计任务中的至少一项。
[0017]根据本公开的另一方面,提供了一种联邦学习装置,应用于与执行同一联邦学习任务的多个参与方分别通信连接的协作方,其中,装置包括:ID获取模块,被配置用于从多个参与方获取多个ID集,其中多个ID集的ID类型相同;求交模块,被配置用于计算多个ID集的交集,以得到ID交集;以及发送模块,被配置用于向多个参与方中的每个参与方发送ID交集,以使得多个参与方分别基于ID交集获取与联邦学习任务相关联的特征数据,进而使得多个参与方基于各自的特征数据执行联邦学习任务的后续子任务。
[0018]根据本公开的另一方面,提供了一种数据管理系统,数据管理系统与执行同一联邦学习任务的多个参与方中的任一个参与方通信连接,其中,数据管理系统包括:数据获取
模块,被配置用于获取该参与方的第一数据集;发送模块,被配置用于响应于接收到该参与方的ID获取请求,向该参与方发送第一数据集的第一ID集;ID获取模块,被配置用于获取多个参与方的ID交集,其中发送模块还被配置用于响应于接收到该参与方的特征获取请求,基于ID交集,向该参与方发送第一数据集中与联邦学习任务相关联的特征数据,以使得多个参与方基于各自的特征数据执行联邦学习任务的后续子任务。
[0019]根据本公开的另一方面,提供了一种联邦学习系统,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联邦学习方法,应用于执行同一联邦学习任务的多个参与方中的任一个参与方,其特征在于,所述方法包括:从数据管理系统获取该参与方的第一数据集的第一ID集;获取所述多个参与方的ID交集,所述ID交集为基于所述第一ID集和所述多个参与方中其他参与方的第二数据集的第二ID集来获得的,其中所述第二ID集的ID类型与所述第一ID集的ID类型相同;以及基于所述ID交集,从所述数据管理系统获取所述第一数据集中与所述联邦学习任务相关联的特征数据,以与所述其他参与方基于各自的所述特征数据执行所述联邦学习任务的后续子任务。2.根据权利要求1所述的方法,其特征在于,获取所述多个参与方的ID交集包括:与所述其他参与方合作计算所述第一ID集与所述第二ID集的交集,以得到所述ID交集。3.根据权利要求1所述的方法,其特征在于,所述多个参与方分别与协作方通信连接,获取所述多个参与方的ID交集包括:向所述协作方发送所述第一ID集;从所述协作方获取所述ID交集,其中所述ID交集是所述协作方计算得到的所述第一ID集与所述第二ID集的交集,其中所述第二ID集是所述协作方从所述其他参与方获取的。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述数据管理系统内置有关系型数据库,所述第一数据集以关系型数据的形式被存储在所述关系型数据库中。5.根据权利要求4所述的方法,其特征在于,所述第一ID集对应所述关系型数据库中的与预设ID类型相应的一列数据集合。6.根据权利要求4所述的方法,其特征在于,基于所述ID交集,从所述数据管理系统获取所述第一数据集中与所述联邦学习任务相关联的特征数据包括:从所述关系型数据库中获取与所述ID交集相对应的全量特征数据;连接所述全量特征数据,以生成与所述联邦学习任务相关联的所述特征数据。7.根据权利要求4所述的方法,其特征在于,基于所述ID交集,从所述数据管理系统获取所述第一数据集中与所述联邦学习任务相关联的特征数据包括:从所述关系型数据库中获取与所述ID交集相对应的多个预设属性列的特征数据;连接所述多个预设属性列的特征数据,以生成与所述联邦学习任务相关联的所述特征数据。8.根据权利要求1所述的方法,其特征在于,所述数据管理系统支持以下数据源类型中的至少一种的数据集导入:csv、txt、HTTP、FTP、MySQL、Oracle、Hive。9.根据权利要求1

8中任一项所述的方法,其特征在于,所述联邦学习任务的后续子任务包括联邦建模任务、联邦预测任务、联邦查询任务、联邦统计任务中的至少一项。10.一种联邦学习方法,应用于与执行同一联邦学习任务的多个参与方分别通信连接的协作方,其特征在于,所述方法包括:从所述多个参与方获取多个ID集,其中所述多个ID集的ID类型相同;计算所述多个ID集的交集,以得到ID交集;以及向所述多个参与方中的每个参与方发送所述ID交集,以使得所述多个参与方分别基于
所述ID交集获取与所述联邦学习任务相关联的特征数据,进而使得所述多个参与方基于各自的所述特征数据执行所述联邦学习任务的后续子任务。11.一种数据管理方法,应用于与执行同一联邦学习任务的多个参与方中的任一个参与方通信连接的数据管理系统,其特征在于,所述方法包括:获取该参与方的第一数据集;响应于接收到该参与方的ID获取请求,向该参与方发送所述第一数据集的第一ID集;获取所述多个参与方...

【专利技术属性】
技术研发人员:高晓龙
申请(专利权)人:深圳致星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1