分布式数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:27266114 阅读:24 留言:0更新日期:2021-02-06 11:30
本申请是关于一种分布式数据处理方法、装置、计算机设备及存储介质,涉及人工智能技术领域。所述方法包括:获取至少两个边缘节点设备分别发送的模型训练信息;模型训练信息是以明文的形式传输的;模型训练信息是边缘节点设备通过差分隐私的方式对子模型进行训练获得的;基于至少两个边缘节点设备分别发送的模型训练信息,获取至少两个边缘节点设备各自训练得到的子模型;基于指定模型集成策略,对至少两个边缘节点设备各自训练得到的所述子模型进行模型集成,获取全局模型。通过上述方案,在保证了数据隐私安全的前提下,扩展了模型集成方式,提高了模型集成效果。提高了模型集成效果。提高了模型集成效果。

【技术实现步骤摘要】
分布式数据处理方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及人工智能
,特别涉及一种分布式数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着人工智能的不断发展,以及用户隐私要求的不断提高,基于分布式系统的机器学习模型训练的应用也越来越广泛。
[0003]联邦学习是一种基于云技术的分布式系统的机器学习方式。在联邦学习架构中,包含中心节点设备和多个边缘节点设备,每个边缘节点设备在本地存储有各自的训练数据。联邦学习包含有横向联邦学习,横向联邦学习是通过在多个边缘节点设备中根据本地训练数据训练得到各自的模型梯度,将各个模型梯度进行加密后发送给中心节点设备,由中心节点设备对加密后的模型梯度进行聚合,将聚合的加密后的模型梯度发送给各个边缘节点设备,各个边缘节点设备可以分别对获取到的聚合的加密后的模型梯度进行解密,生成聚合的模型梯度,根据聚合的模型梯度可以更新模型。
[0004]在上述技术方案中,为了保护训练数据的安全,需要对模型梯度进行加密处理,导致了中心节点设备只能采用安全聚合算法进行模型融合,从本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分布式数据处理方法,其特征在于,所述方法由分布式系统中的中心节点设备执行,所述分布式系统中包含所述中心节点设备与至少两个边缘节点设备;所述方法包括:获取所述至少两个边缘节点设备分别发送的模型训练信息;所述模型训练信息是以明文的形式传输的;所述模型训练信息是所述边缘节点设备通过差分隐私的方式对子模型进行训练获得的;基于所述至少两个边缘节点设备分别发送的所述模型训练信息,获取所述至少两个边缘节点设备各自训练得到的所述子模型;基于指定模型集成策略,对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成,获取全局模型;所述指定模型集成策略是基于密码学的安全模型融合策略之外的其它模型集成策略。2.根据权利要求1所述的方法,其特征在于,所述至少两个边缘节点设备各自训练的所述子模型的模型结构不同。3.根据权利要求1所述的方法,其特征在于,响应于所述指定模型集成策略包含第一模型集成策略;所述基于指定模型集成策略,对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成,获取全局模型,包括:获取所述至少两个边缘节点设备各自训练得到的所述子模型对应的集成权重;所述集成权重用于指示所述子模型的输出值对所述全局模型的输出值的影响情况;从所述至少两个边缘节点设备各自训练得到的所述子模型中分别获取至少一个所述子模型,生成至少一个集成模型集合;所述集成模型集合是用于集成一个全局模型的所述子模型的集合;基于所述集成权重,对至少一个所述集成模型集合中的各个所述子模型进行加权平均,获取至少一个所述全局模型。4.根据权利要求3所述的方法,其特征在于,所述获取所述至少两个边缘节点设备各自训练得到的所述子模型对应的集成权重,包括:基于所述至少两个边缘节点设备的权重影响参数,获取所述至少两个边缘节点设备各自训练得到的所述子模型的集成权重;其中,所述权重影响参数包括所述边缘节点设备对应的可信任度以及所述边缘节点设备中的第一训练数据集的数据量中的至少一种。5.根据权利要求1所述的方法,其特征在于,响应于所述指定模型集成策略包含第二模型集成策略,所述中心节点设备中包含第二训练数据集;所述第二训练数据集是由所述中心节点设备存储的数据集;所述第二训练数据集中包含特征数据以及标签数据;所述基于指定模型集成策略,对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成,获取全局模型,包括:获取第一初始全局模型;将所述第二训练数据集中的所述特征数据分别输入所述至少两个边缘节点设备各自训练得到的所述子模型中,获取至少两个第一输出数据;将所述第一输出数据输入所述第一初始全局模型;基于所述第二训练数据集中的所述标签数据,以及所述第一初始全局模型的输出结
果,更新所述第一初始全局模型中的模型参数,获得所述全局模型。6.根据权利要求1所述的方法,其特征在于,响应于所述指定模型集成策略包含第三模型集成策略,所述中心节点设备中包含第二训练数据集;所述第二训练数据集是由所述中心节点设备存储的数据集;所述第二训练数据集中包含特征数据以及标签数据;所述基于指定模型集成策略,对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成,获取全局模型,包括:获取第二初始全局模型;将所述第二训练数据集中的所述特征数据分别输入所述至少两个边缘节点设备各自训练得到的所述子模型中,获取至少两个第一输出数据;将所述第一输出数据以及所述第二训练数据集中的所述特征数据输入到所述第二初始全局模型中,获取第二输出数据;基于所述第二输出数据以及所述第二训练数据集中的所述标签数据,更新所述第二初始全局模型中的模型参数,获得所述全局模型。7.根据权利要求1所述的方法,其特征在于,响应于所述指定模型集成策略包含第四模型集成策略,所述中心节点设备中包含第二训练数据集;所述第二训练数据集是由所述中心节点设备存储的数据集;所述第二训练数据集中包含特征数据以及标签数据;所述基于指定模型集成策略,对所述至少两个边缘节点设备各自训练得到的所述子模型进行模型集成,获取全局模型,包括:获取第三初始全局模型;所述第三初始全局模型是分类模型;将所述第二训练数据...

【专利技术属性】
技术研发人员:程勇陶阳宇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1