数据管理方法、装置、系统、设备、介质和程序产品制造方法及图纸

技术编号:34627816 阅读:53 留言:0更新日期:2022-08-20 09:36
本公开提供了一种数据管理方法、装置、系统、电子设备、非瞬时计算机可读存储介质和计算机程序产品,涉及计算机技术领域,尤其涉及联邦学习领域、隐私计算领域,可用于对隐私数据进行管理。实现方案为:响应于接收到导入指令,获取第一数据集中至少一个第一数据行各自相应的数据信息,数据信息包括至少一个ID值、回溯时间、以及与属性列相对应的特征数据;基于至少一个第一数据行各自相应的ID值和回溯时间,确定至少一个第一数据行各自相应的索引,索引与索引列相对应;将至少一个第一数据行各自相应的索引和特征数据导入数据表;响应于接收到第一导出指令,基于数据表中的索引列相对应的索引,从数据表中导出与联邦学习任务相关联的第二数据集。相关联的第二数据集。相关联的第二数据集。

【技术实现步骤摘要】
数据管理方法、装置、系统、设备、介质和程序产品


[0001]本公开涉及计算机
,尤其涉及联邦学习领域、隐私计算领域,可用于对隐私数据进行管理,具体涉及一种数据管理方法、装置、系统、电子设备、非瞬时计算机可读存储介质和计算机程序产品。

技术介绍

[0002]联邦机器学习(Federated Machine Learning),又名联邦学习(Federated Learning),是一个机器学习框架,能有效帮助多个参与方在满足用户隐私保护和数据安全下,进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上完成联合学习任务,能从技术上打破数据孤岛,实现AI(Artificial Intelligence)协作。
[0003]联邦学习定义了机器学习框架,在此框架下可以通过设计虚拟模型来解决不同数据拥有方在不交换数据的情况下进行协作的问题。虚拟模型是各方将数据聚合在一起的最优模型,联邦学习的目标是虚拟模型无限接近按照传统建模模式所得到的模型,即将多个数据拥有方的数据汇聚到一处进行建模所得到的模型。在联邦机制下,各参与方(即数据拥有方)的身份和地位相同,可建立共享数据策略。由于各参与方的隐私数据不发生转移,因此不会泄露用户隐私或影响数据规范。需要说明的,联邦学习任务不局限于联邦建模,例如还可以为联邦查询任务、联邦统计任务等。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种数据管理方法、装置、系统、电子设备、非瞬时计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种数据管理方法,应用于与执行同一联邦学习任务的多个参与方中的任一个参与方通信连接的数据管理系统,其特征在于,数据管理系统内置有数据表,数据表包括索引列和多个属性列。该方法包括:响应于接收到该参与方的导入指令,获取待导入的第一数据集中至少一个第一数据行各自相应的数据信息,数据信息包括至少一个ID值、回溯时间、以及与至少一个属性列相对应的特征数据;基于至少一个第一数据行各自相应的至少一个ID值和回溯时间,确定至少一个第一数据行各自相应的索引,索引与索引列相对应;以及将至少一个第一数据行各自相应的索引和至少一个特征数据导入数据表;以及响应于接收到该参与方的第一导出指令,基于数据表中的索引列相对应的至少一个索引,从数据表中导出与联邦学习任务相关联的第二数据集。
[0007]根据本公开的另一方面,提供了一种联邦学习方法,应用于联邦学习任务中任一参与方,该参与方与联邦学习任务中的多个目标参与方通信连接,其特征在于,该参与方的
数据管理系统内置数据表,数据表包括索引列和至少一个属性列,其中,数据表还包括至少一个第一数据行,每一个第一数据行包括与索引列相对应的索引和与至少一个属性列相对应的特征数据,并且其中,索引与相对应的第一数据行的至少一个ID值和回溯时间相关。该方法包括:向数据管理系统发送第一导出指令,以得到与联邦学习任务相关联的第二数据集,其中,第二数据集是基于数据表中的索引列相对应的至少一个索引从数据表中导出的;以及基于第二数据集,与多个目标参与方中的其他参与方执行联邦学习任务的后续子任务。
[0008]根据本公开的另一方面,提供了一种数据管理系统,应用于与执行同一联邦学习任务的多个参与方中的任一个参与方,其特征在于,数据管理系统内置有数据表,数据表包括索引列和多个属性列,数据管理系统包括:导入单元,被配置为响应于接收到该参与方的导入指令,获取待导入的第一数据集中至少一个第一数据行各自相应数据信息,数据信息包括至少一个ID值、回溯时间、以及与至少一个属性列相对应的特征数据;基于至少一个第一数据行各自相应的至少一个ID值和回溯时间,确定至少一个第一数据行各自相应的索引,索引与索引列相对应;以及将至少一个第一数据行各自相应的索引和至少一个特征数据导入数据表;以及导出单元,被配置为响应于接收到该参与方的第一导出指令,基于数据表中的索引列相对应的至少一个索引,从数据表中导出与联邦学习任务相关联的第二数据集。
[0009]根据本公开的另一方面,提供了一种联邦学习装置,应用于联邦学习任务中任一参与方,该参与方与联邦学习任务中的多个目标参与方通信连接,其特征在于,该参与方的数据管理系统内置数据表,数据表包括索引列和至少一个属性列,其中,数据表还包括至少一个第一数据行,每一个第一数据行包括和索引列相对应的索引和与至少一个属性列相对应的特征数据,并且其中,索引与对应的第一数据行的至少一个ID值和回溯时间相关,装置包括:发送单元,被配置为向数据管理系统发送第一导出指令,以得到与联邦学习任务相关联的第二数据集,其中,第二数据集是基于数据表中的索引列相对应的至少一个索引从数据表中导出的;以及执行单元,被配置为基于第二数据集,与多个目标参与方中的其他参与方执行联邦学习任务的后续子任务。
[0010]根据本公开的另一方面,提供了一种联邦学习系统,包括:上述联邦学习装置。
[0011]根据上述联邦学习系统,还包括:上述数据管理系统。
[0012]根据本公开的另一方面,提供了一种电子设备,其中,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据上述任一项的方法。
[0013]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据上述任一项的方法。
[0014]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序被处理器执行时实现根据上述任一项方法。
[0015]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0017]图1示出了根据本公开的示例性实施例的数据管理方法的流程图;
[0018]图2示出了根据本公开的示例性实施例的从数据表中导出与联邦学习任务相关联的第二数据集的流程图;
[0019]图3示出了根据本公开的示例性实施例的联邦学习方法的流程图;
[0020]图4示出了根据本公开的示例性实施例的联邦学习方法的示意图;
[0021]图5示出了根据本公开的示例性实施例的联邦学习方法的流程图;
[0022]图6示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据管理方法,应用于与执行同一联邦学习任务的多个参与方中的任一个参与方通信连接的数据管理系统,其特征在于,所述数据管理系统内置有数据表,所述数据表包括索引列和多个属性列,所述方法包括:响应于接收到该参与方的导入指令,获取待导入的第一数据集中至少一个第一数据行各自相应的数据信息,所述数据信息包括至少一个ID值、回溯时间、以及与至少一个所述属性列相对应的特征数据;基于所述至少一个第一数据行各自相应的至少一个ID值和回溯时间,确定所述至少一个第一数据行各自相应的索引,所述索引与所述索引列相对应;以及将所述至少一个第一数据行各自相应的索引和至少一个特征数据导入所述数据表;以及响应于接收到该参与方的第一导出指令,基于所述数据表中的索引列相对应的至少一个索引,从所述数据表中导出与所述联邦学习任务相关联的第二数据集。2.根据权利要求1所述的方法,其特征在于,所述索引包括联合索引,所述联合索引与相对应的第一数据行的至少一个ID值和回溯时间两者相关,其中,基于所述数据表中的索引列相对应的至少一个索引,从所述数据表中导出与所述联邦学习任务相关联的第二数据集包括:响应于接收到该参与方的第一导出指令,基于所述数据表中的索引列相对应的至少一个联合索引,从所述数据表中导出与所述联邦学习任务相关联的第二数据集。3.根据权利要求2所述的方法,其特征在于,所述索引还包括回溯时间和至少一个ID值,所述第一导出指令包括第一目标回溯时间和/或第一ID集,其中,基于所述数据表中的索引列相对应的至少一个索引,从所述数据表中导出与所述联邦学习任务相关联的第二数据集还包括:响应于接收到该参与方的第二导出指令,基于所述第一目标回溯时间和/或第一ID集,从所述数据表中导出与所述联邦学习任务相关联的第三数据集,并且其中,基于所述数据表中的索引列相对应的至少一个联合索引,从所述数据表中导出与所述联邦学习任务相关联的第二数据集包括:响应于接收到该参与方的第一导出指令,基于所述第三数据集中各数据行相对应的联合索引,从所述第三数据集中筛选出所述第二数据集,所述第一导出指令包括至少一个预设联合索引,所述第二数据集中的每一个数据行相对应的联合索引属于所述至少一个预设联合索引。4.根据权利要求2所述的方法,其特征在于,所述第一导出指令包括至少一个预设联合索引,其中,基于所述数据表中的索引列相对应的至少一个联合索引,从所述数据表中导出与所述联邦学习任务相关联的第二数据集包括:从所述数据表中筛选出与所述至少一个预设联合索引对应的所述第二数据集。5.根据权利要求2

4中任一项所述的方法,其特征在于,所述至少一个第一数据行各自相应的联合索引包括与相应的至少一个ID值各自相关的至少一个联合索引。6.根据权利要求3或4所述的方法,其特征在于,所述至少一个预设联合索引为该参与方与所述多个参与方中的其他参与方合作计算所述多个参与方各自的第三数据集的联合索引的交集而得到的。
7.根据权利要求5中任一项所述的方法,其特征在于,所述第一导出指令指示目标ID,所述第二数据集包括所述数据表中的至少一个第二数据行各自的与所述目标ID相关的联合索引和/或所述至少一个第二数据行各自的至少一个ID值中的与所述目标ID对应的ID值。8.根据权利要求5中任一项所述的方法,其特征在于,所述至少一个第一数据行各自相应的联合索引是通过将该第一数据行的至少一个ID值分别和回溯时间进行拼接而得到的。9.根据权利要求1

8中任一项所述的方法,其特征在于,将所述至少一个第一数据行各自相应的索引和至少一个特征数据导入所述数据表包括:针对所述至少一个第一数据行中的每一个第一数据行,响应于确定所述数据表中包括与该第一数据行具有相同索引的第三数据行,放弃导入该第一数据行。10.根据权利要求1

8中任一项所述的方法,其特征在于,所述导入指令包括回溯时间参数,所述至少一个第一数据行各自相应的回溯时间均与所述回溯时间参数一致。11.根据权利要求1

8中任一项所述的方法,其特征在于,所述方法还包括以下中的至少一项:响应于接收到该参与方的删除指令,删除所述数据表中由所述删除指令指定的数据行,所述删除指令包括待删除数据行相对应的索引;响应于接收到该参与方的更新指令,更新所述数据表中由所述更新指令指定的数据行的特征数据,所述更新指令包括待更新数据行相对应的索引和待更新属性列相对应的更新特征数据;以及响应于接收到该参与方的查询指令,返回所述数据表中由所述查询指令指定的数据行的特征数据,所述查询指令包括待获取的数据行相对应的索引。12.根据权利要求1

11中任一项所述的方法,其特征在于,所述数据管理系统内置有关系型数据库,所述数据表以关系型数据的形式被存储在所述关系型数据库中。13.一种联邦学习方法,应用于联邦学习任务中任一参与方,该参与方与联邦学习任务中的多个目标参与方通信连接,其特征在于,该参与方的数据管理系统内置数据表,所述数据表包括索引列和至少一个属性...

【专利技术属性】
技术研发人员:高晓龙
申请(专利权)人:深圳致星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1