【技术实现步骤摘要】
模型训练的方法、装置及电子设备
[0001]本申请涉及机器学习领域,具体而言,涉及一种模型训练的方法、装置及电子设备。
技术介绍
[0002]不同于传统的机器学习,联邦学习无需将数据上传给云端服务器,避免了大量数据上传造成的高通信成本。但同时,由于其模型聚合的必要性,多轮的模型参数通信也需要较高的通信成本。为了降低通信成本,通常的技术专注于压缩传输参数、减少通信次数或者对客户端进行抽样。但是其对参与设备算力的异质性考虑较少,在联邦学习的一次全局聚合中,其通信效率应该与设备本地训练时间挂钩,但是传统联邦学习中对设备的本地训练时间预估是较难的。
[0003]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0004]本申请实施例提供了一种模型训练的方法、装置及电子设备,以至少解决传统的联邦学习对参与方设备的本地训练时间预估较难的技术问题。
[0005]根据本申请实施例的一个方面,提供了一种模型训练的方法,包括:获取联邦学习模型中参与设备对应的本地数据信息,其中,参与设备为参与联邦学习的客户端设备,本地数据信息包括:参与设备的设备算力、参与设备的存储资源信息和参与设备的网络资源信息;确定对本地数据信息进行联邦学习所使用的目标架构,其中,目标架构包括以下之一:中心化联邦架构和对等网络架构,中心化联邦架构依据参与设备的训练时间对参与设备进行分组,并对分组后的参与设备的本地模型参数进行聚合,对等网络架构通过确定每个子集中的参与设备所对应的执行顺序,依据执行顺序依次对每个子集中的参与设备 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:获取联邦学习模型中参与设备对应的本地数据信息,其中,所述参与设备为参与联邦学习的客户端设备,所述本地数据信息包括:所述参与设备的设备算力、所述参与设备的存储资源信息和所述参与设备的网络资源信息;确定对所述本地数据信息进行联邦学习所使用的目标架构,其中,所述目标架构包括以下之一:中心化联邦架构和对等网络架构,所述中心化联邦架构依据所述参与设备的训练时间对所述参与设备进行分组,并对分组后的参与设备的本地模型参数进行聚合,所述对等网络架构通过确定每个子集中的参与设备所对应的执行顺序,依据所述执行顺序依次对所述每个子集中的参与设备进行本地训练,并聚合所述每个子集中最后一个参与设备的模型参数;依据所述目标架构对所述本地数据信息进行联邦学习训练,得到全局模型。2.根据权利要求1所述的方法,其特征在于,在所述目标架构为所述中心化联邦架构的情况下,依据所述目标架构对所述本地数据信息进行联邦学习训练,得到全局模型,包括:确定所述参与设备在本地训练时所需的训练时间,其中,所述训练时间通过所述参与设备的存储资源信息、所述参与设备的设备算力、所述参与设备的本地训练的次数和转换系数确定;将所述训练时间按照预设顺序排序,得到第一时间序列;依次读取所述第一时间序列,并将所述第一时间序列中满足预设条件的时间所对应的参与设备进行分组,得到多组聚合单元,其中,每组聚合单元中包括多个参与设备;从所述多组聚合单元中选择目标参与设备进行本地训练,得到与所述目标参与设备对应的本地模型参数,其中,所述本地模型参数为所述目标参与设备所使用的本地模型对应的模型参数;通过目标聚合服务器对所述目标参与设备对应的本地模型参数进行聚合,得到全局模型对应的全局参数,并依据所述全局参数确定所述全局模型,其中,所述目标聚合服务器为聚合服务器集合中与参与设备进行通信时时延最低的聚合服务器,所述全局模型与所述本地模型所使用的模型结构相同。3.根据权利要求2所述的方法,其特征在于,从所述多组聚合单元中选择目标参与设备进行本地训练,包括:依据第一概率从所述多组聚合单元中选择目标聚合单元,其中,所述第一概率表示所述多组聚合单元中每个聚合单元的选择概率;依据第二概率从所述目标聚合单元中确定所述目标参与设备,并通过所述目标参与设备进行本地训练,其中,所述第二概率表示所述目标参与设备的存储资源信息的总量与所述目标聚合单元中所有参与设备的存储资源信息的总量的比值。4.根据权利要求2所述的方法,其特征在于,通过目标聚合服务器对所述目标参与设备对应的本地模型参数进行聚合之前,所述方法还包括:确定所述目标参与设备与所述目标聚合服务器之间的上行链路速率;依据所述上行链路速率和所述目标参与设备的存储资源信息的总量,确定将所述目标参与设备对应的本地模型参数传输至所述目标聚合服务器所需的时延;依据所述时延和所述目标参与设备的发射功率,确定将所述目标参与设备对应的本地
模型参数传输至所述目标聚合服务器所需的能耗;依据所述能耗为所述目标参与设备分配对应的传输资源。5.根据权利要求1所述的方法,其特征在于,在所述目标架构为所述对等网络架构的情况下,依据所述目标架构对所述本地数据信息进行联邦学习训练,得到全局模型,包括:将所述参与设备划分为多个子集,其中,每个子集中参与设备之间的设备算力和存储资源信息的差值在预设范围内;确定每个子集中包含的参与设备对应的无向图,其中,所述无向图中的节点表示所述每个子集中的参与设备,所述无向图中节点之间的连线通过每个子集中的参与设备的网络资源信息确定,所述无向图中的权值表示节点之间的传输消耗;确定所述每个子集对应的无向图的传输路径列表,得到多个传输路径列表,其中,所述传输路径列表中包括无向图中的所有节点且传输消耗最低;确定所述多个传输路径列表中每个传输路径列表最后的节点,得到节点集合,将所述节点集合中与其他节点的传输消耗总和最低的节点确定为聚合点;依据所述聚合点对每个子集传输的模型参数进行聚合,得到全局模型对应的全局参数,并依据所述全局参数确定所述全局模型。6.根据权利要求5所述的方法,其特征在于,确定所述每个子集对应的无向图的传输路径列表,包括:第一步,将目标子集对应的无向图中的第一节点确定为传输路径列表中的初始节点,并将所述初始节点添加至选取路径中,其中,所述目标子集为所述多个...
【专利技术属性】
技术研发人员:张妍,顾鹏,叶平,张诗杭,聂亚南,李斌,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。