异构算力的联邦学习耗时预测方法、装置、设备及系统制造方法及图纸

技术编号：40963032 阅读：3 留言：0更新日期：2024-04-18 20:42

本发明专利技术涉及计算机技术领域，具体公开了异构算力的联邦学习耗时预测方法、装置、设备及系统，通过采集联邦学习系统中各客户端异构设备的客户端异构设备信息、客户端训练任务信息以及对应的实际训练耗时测量结果和理论训练耗时计算结果构建的预测数据集来训练联邦学习时间预测模型，在训练中除了实际训练耗时测量结果外将理论训练耗时计算结果引入损失函数，来提高模型预测联邦学习耗时的泛化能力，由此利用得到的联邦学习时间预测模型来预测被测联邦学习系统中各被测客户端异构设备的客户端联邦学习耗时预测结果，可以实现更为准确的预测，实现了在异构算力下的联邦学习耗时预测，通过提供准确的耗时预测结果来优化联邦学习系统的算力调度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，特别是涉及异构算力的联邦学习耗时预测方法、装置、设备及系统。

技术介绍

1、联邦学习(federated learning)也称为协同学习，它可以在产生数据的设备上进行大规模的训练，并且这些敏感数据保留在数据的所有者那里，本地收集、本地训练。在本地训练后，中央的训练协调器通过获取分布模型的更新获得每个节点的训练贡献，但是不访问实际的敏感数据。联邦学习的参与者也被称为节点或客户端。在实际应用中，涉及到联邦学习的参与方众多，且各方由于基础算力设施的不同，导致联邦学习的不同参与方的算力能力也有较大差异，从而产生了异构算力场景下的联邦学习。

2、联邦学习过程的整体耗时是影响生产效率、决策等的关键因素，也是用户比较关注的问题。然而，目前还没有针对异构算力场景下的联邦学习耗时预测方案。

3、提供一种异构算力场景下的联邦学习耗时预测方案，是本领域技术人员需要解决的技术问题。

技术实现思路

1、本专利技术的目的是提供异构算力的联邦学习耗时预测方法、装置、设备及系统，用于实现在异构算力场景下的联邦学习耗时预测。

2、为解决上述技术问题，本专利技术提供一种异构算力的联邦学习耗时预测方法，包括：

3、采集联邦学习系统中各客户端异构设备的客户端异构设备信息、客户端训练任务信息以及对应的实际训练耗时测量结果和理论训练耗时计算结果，构建预测数据集；

4、利用所述预测数据集训练得到联邦学习时间预测模型，并在训练中根据所述实际训练耗

5、采集被测联邦学习系统中各被测客户端异构设备的客户端异构设备信息和客户端训练任务信息；

6、将所述被测客户端异构设备的客户端异构设备信息和客户端训练任务信息输入所述联邦学习时间预测模型，得到与所述被测客户端异构设备对应的客户端联邦学习耗时预测结果；

7、将所述客户端联邦学习耗时预测结果更新至所述被测联邦学习系统中的聚合节点以得到所述被测联邦学习系统的联邦学习耗时预测结果。

8、在一些实施中，采集所述理论训练耗时计算结果，包括：

9、根据各所述客户端异构设备的客户端异构设备信息和客户端训练任务信息计算得到所述客户端异构设备训练本地客户端模型的第一理论耗时以及所述客户端异构设备与所述联邦学习系统中的聚合节点之间传输模型权重的第二理论耗时；

10、根据所述第一理论耗时和所述第二理论耗时计算得到所述理论训练耗时计算结果。

11、在一些实施中，所述根据各所述客户端异构设备的客户端异构设备信息和客户端训练任务信息计算得到所述客户端异构设备训练本地客户端模型的第一理论耗时以及所述客户端异构设备与所述联邦学习系统中的聚合节点之间传输模型权重的第二理论耗时，包括：

12、根据所述客户端异构设备所执行的客户端训练任务的计算复杂度与所述客户端异构设备的峰值算力的比值计算得到所述第一理论耗时；

13、根据所述客户端异构设备向所述联邦学习系统中的聚合节点上传模型参数的理论上传耗时与所述客户端异构设备自所述联邦学习系统中的聚合节点下载模型参数的理论下载耗时计算得到所述第二理论耗时；

14、其中，所述理论上传耗时为所述客户端异构设备执行聚合任务时所需上传模型参数的数据量与所述客户端异构设备至所述联邦学习系统中的聚合节点的理论上行速率的比值；所述理论下载耗时为所述客户端异构设备执行聚合任务时所需下载模型参数的数据量与所述联邦学习系统中的聚合节点至所述客户端异构设备的理论下行速率的比值。

15、在一些实施中，，根据所述实际训练耗时测量结果和所述理论训练耗时计算结果构建所述损失函数，包括：

16、根据训练中的所述联邦学习时间预测模型输出的耗时预测结果和对应的所述实际训练耗时测量结果构建第一损失函数；

17、根据训练中的所述联邦学习时间预测模型输出的耗时预测结果和对应的所述理论训练耗时计算结果构建第二损失函数；

18、根据所述第一损失函数和所述第二损失函数构建所述损失函数。

19、在一些实施中，所述第一损失函数，具体通过下式表示：

20、l1＝||h(x，z)-t||2；

21、其中，l1为所述第一损失函数，h(x，z)为训练中的所述联邦学习时间预测模型输出的耗时预测结果，x为客户端异构设备信息，z为客户端训练任务信息，t为对应的所述实际训练耗时测量结果。

22、在一些实施中，所述第二损失函数，具体通过下式表示：

23、l2＝d(h(x，z))，t(x，z))＝max(||h(x，z))-t(x，z)||2-m，0)；

24、其中，l2为所述第二损失函数，h(x，z)为训练中的所述联邦学习时间预测模型输出的耗时预测结果，t(x，z)为对应的所述理论训练耗时计算结果，x为客户端异构设备信息，z为客户端训练任务信息，m为误差约束阈值，d()为度量损失函数，max()为取最大值计算。

25、在一些实施中，所述第一损失函数，具体通过下式表示：

26、l3＝|h(x，z)-t|；

27、其中，l3为所述第一损失函数，h(x，z)为训练中的所述联邦学习时间预测模型输出的耗时预测结果，x为客户端异构设备信息，z为客户端训练任务信息，t为对应的所述实际训练耗时测量结果。

28、在一些实施中，所述第二损失函数，具体通过下式表示：

29、l4＝d(h(x，z))，t(x，z))＝max(|h(x，z)-t(x，z)|-m，0)；

30、其中，l4为所述第二损失函数，h(x，z)为训练中的所述联邦学习时间预测模型输出的耗时预测结果，t(x，z)为对应的所述理论训练耗时计算结果，x为客户端异构设备信息，z为客户端训练任务信息，m为误差约束阈值，d()为度量损失函数，max()为取最大值计算。

31、在一些实施中，所述根据所述第一损失函数和所述第二损失函数构建所述损失函数，包括：

32、以所述第一损失函数与所述第二损失函数之和为所述损失函数。

33、在一些实施中，客户端异构设备信息包括：所述客户端异构设备的静态算力信息和所述客户端异构设备的动态算力信息；

34、其中，所述静态算力信息包括所述客户端异构设备的硬件计算能力值、所述客户端异构设备的硬件存储能力值以及所述客户端异构设备所处的通信环境的通信质量参数；

35、所述动态算力信息包括所述客户端异构设备的实时硬件计算能力值、所述客户端异构设备的实时硬件存储能力值以及所述客户端异构设备所处的通信环境的实时通信质量参数。

36、在一些实施中，所述静态算力信息包括所述客户端异构设备的图形处理器的显存总大小、所述图形处理器的显卡核心数量、所述图形处理器的计算主频率、所述图形处理器的计算浮点数的理论峰值、所述图形处理器的显存带宽中的至少一本文档来自技高网...

【技术保护点】

1.一种异构算力的联邦学习耗时预测方法，其特征在于，包括：

2.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，采集所述理论训练耗时计算结果，包括：

3.根据权利要求2所述的异构算力的联邦学习耗时预测方法，其特征在于，所述根据各所述客户端异构设备的客户端异构设备信息和客户端训练任务信息计算得到所述客户端异构设备训练本地客户端模型的第一理论耗时以及所述客户端异构设备与所述联邦学习系统中的聚合节点之间传输模型权重的第二理论耗时，包括：

4.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，根据所述实际训练耗时测量结果和所述理论训练耗时计算结果构建所述损失函数，包括：

5.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述第一损失函数，具体通过下式表示：

6.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述第二损失函数，具体通过下式表示：

7.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述第一损失函数，具体通过下式表示：>

8.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述第二损失函数，具体通过下式表示：

9.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述根据所述第一损失函数和所述第二损失函数构建所述损失函数，包括：

10.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，客户端异构设备信息包括：所述客户端异构设备的静态算力信息和所述客户端异构设备的动态算力信息；

11.根据权利要求10所述的异构算力的联邦学习耗时预测方法，其特征在于，所述静态算力信息包括所述客户端异构设备的图形处理器的显存总大小、所述图形处理器的显卡核心数量、所述图形处理器的计算主频率、所述图形处理器的计算浮点数的理论峰值、所述图形处理器的显存带宽中的至少一项以及所述客户端异构设备到聚合节点的理论时延、所述客户端异构设备到所述聚合节点的上下行速率中的至少一项；

12.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，客户端训练任务信息包括：

13.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，采集所述联邦学习系统中各所述客户端异构设备的客户端异构设备信息、客户端训练任务信息以及对应的所述实际训练耗时测量结果，包括：

14.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，所述被测联邦学习系统采用同步更新的方式聚合模型参数；

15.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，还包括：

16.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，所述将所述被测客户端异构设备的客户端异构设备信息和客户端训练任务信息输入所述联邦学习时间预测模型，得到与所述被测客户端异构设备对应的客户端联邦学习耗时预测结果，包括：

17.根据权利要求16所述的异构算力的联邦学习耗时预测方法，其特征在于，所述利用所述实际训练耗时结果和所述客户端联邦学习耗时预测结果更新所述联邦学习时间预测模型的模型参数，包括：

18.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，所述采集联邦学习系统中各客户端异构设备的客户端异构设备信息、客户端训练任务信息以及对应的实际训练耗时测量结果和理论训练耗时计算结果，包括：

19.一种异构算力的联邦学习耗时预测系统，其特征在于，包括：监控节点和被测联邦学习系统；

20.一种异构算力的联邦学习耗时预测装置，其特征在于，包括：

21.一种异构算力的联邦学习耗时预测设备，其特征在于，包括：

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至18任意一项所述异构算力的联邦学习耗时预测方法的步骤。

...

【技术特征摘要】

1.一种异构算力的联邦学习耗时预测方法，其特征在于，包括：

2.根据权利要求1所述的异构算力的联邦学习耗时预测方法，其特征在于，采集所述理论训练耗时计算结果，包括：

5.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述第一损失函数，具体通过下式表示：

6.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述第二损失函数，具体通过下式表示：

7.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述第一损失函数，具体通过下式表示：

8.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述第二损失函数，具体通过下式表示：

9.根据权利要求4所述的异构算力的联邦学习耗时预测方法，其特征在于，所述根据所述第一损失函数和所述第二损失函数构建所述损失函数，包括：

11.根据权利要求10所述的异构算力的联邦学习耗时预测方法，其特征在于，所述静态算力信息包括所述客户端异构设备的图形处理器的显存总大小、所述图形处理器的显卡核心数量、所述图形处理器的计算主频率、所述图形处理器的计算浮点数的理论峰值、所述图形处理器的显存带宽中的至少一项以及所述客户端...

【专利技术属性】
技术研发人员：唐轶男，郭振华，王丽，赵雅倩，李仁刚，曹芳，高开，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人