模型训练方法、任务分配方法、装置、设备、介质及系统制造方法及图纸

技术编号：40002281 阅读：5 留言：0更新日期：2024-01-09 03:58

本发明专利技术公开了计算机技术领域内的一种模型训练方法、任务分配方法、装置、设备、介质及系统。本发明专利技术可构建离散性样本集，该离散性样本集可保证样本独立性，利用该离散性样本集进行强化学习训练，可避免训练过程陷入局部最优解，最终训练得到的任务分配模型输出的最优分配策略，可使任务生产方以最小的资源消耗总量获得更高的性价比，又可使任务执行方以最大任务量获得最大收益，平衡了资源消耗量和任务执行端承担的任务量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，特别涉及一种模型训练方法、任务分配方法、装置、设备、介质及系统。

技术介绍

1、目前，在分配边缘计算任务时，一般考虑任务执行端的处理器性能、内存大小等计算资源来确定分配策略，按照此方式确定的分配策略虽能够完成任务，但可能消耗了系统中的更多资源，不同任务执行端承担的任务不能达到其最大收益，分配策略的性价比不高。

2、因此，如何平衡资源消耗量和任务执行端承担的任务量来制定任务分配策略，是本领域技术人员需要解决的问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种模型训练方法、任务分配方法、装置、设备、介质及系统，以平衡资源消耗量和任务执行端承担的任务量来制定任务分配策略。其具体方案如下：

2、第一方面，本专利技术提供了一种模型训练方法，包括：

3、获取边缘计算系统中的多个边缘设备在每一时隙生成的任务信息；

4、按照预设奖励函数或以随机方式确定每一时隙的任务信息的分配策略；所述分配策略用于：将所述多个边缘设备在单一时隙生成的每一任务，分配至所述边缘计算系统中的服务器、所述边缘计算系统中的加速器或本地边缘设备；所述预设奖励函数以所述边缘计算系统在单一时隙下的资源消耗总量最小、所述服务器处理的任务量最大和所述加速器处理的任务量最大为目标；

5、确定每一时隙的分配策略对应的奖惩信息；

6、使同一目标时隙的任务信息、分配策略和奖惩信息，与所述目标时隙的下一时隙的任务信息，构建为一个样本数据，

7、利用所述离散性样本集进行强化学习训练，得到任务分配模型，所述任务分配模型用于：为所述多个边缘设备在单一时隙生成的任务信息确定最优分配策略。

8、可选地，所述确定每一时隙的分配策略对应的奖惩信息，包括：

9、针对每一时隙的分配策略，根据该分配策略确定该时隙下的每一任务的执行端，并计算每一任务在相应执行端的资源消耗量；所述执行端为所述服务器、所述加速器或本地边缘设备；

10、若任意任务的资源消耗量超出预设执行条件，则计算该时隙的惩罚值；

11、若任意任务的资源消耗量未超出预设执行条件，则计算该时隙的奖励值；

12、将惩罚值或奖励值作为相应任务的奖惩信息。

13、可选地，所述计算每一任务在相应执行端的资源消耗量，包括：

14、根据每一任务的数据处理量和相应执行端的端特征信息，计算相应任务在相应执行端的时延、能耗和费用；

15、基于时延、能耗和费用综合确定所述资源消耗量。

16、可选地，所述根据每一任务的数据处理量和相应执行端的端特征信息，计算相应任务在相应执行端的时延、能耗和费用，包括：

17、针对每一任务，若当前任务的执行端为本地边缘设备，则根据当前任务的数据处理量和本地边缘设备的处理器性能数据计算本地时延；根据当前任务的数据处理量、本地边缘设备的处理器性能数据和本地边缘设备的处理器工艺参数和本地边缘设备处理单位比特需消耗的处理器资源，计算本地能耗；将当前任务在本地边缘设备消耗的费用置为零。或针对每一任务，若当前任务的执行端为所述服务器，则根据当前任务的数据处理量、所述服务器接收当前任务的速率、所述服务器处理单位比特需消耗的处理器资源和当前任务在所述服务器消耗的处理器资源，计算服务器时延；根据当前任务的数据处理量、所述服务器接收当前任务的速率和当前任务的上传速率，计算服务器能耗；根据当前任务的数据处理量、所述服务器处理单位比特需消耗的处理器资源和资源单价，计算当前任务在所述服务器消耗的费用。或针对每一任务，若当前任务的执行端为所述加速器，则根据当前任务的数据处理量、所述加速器接收当前任务的速率、所述加速器处理单位比特需消耗的处理器资源和当前任务在所述加速器消耗的处理器资源，计算加速器时延；根据当前任务的数据处理量、所述加速器接收当前任务的速率和当前任务的上传速率，计算加速器能耗；根据当前任务的数据处理量、所述加速器处理单位比特需消耗的处理器资源和资源单价，计算当前任务在所述加速器消耗的费用。

18、可选地，任务的资源消耗量超出所述预设执行条件包括：任务的实际时延超过该任务的最大允许时延、任务的实际费用超过该任务的最大费用预算、和/或任务需消耗的处理器资源超过执行该任务的执行端的空闲处理器资源。

19、可选地，针对每一时隙，计算当前时隙下所述服务器处理的任务量和所述加速器处理的任务量；计算当前时隙下各任务的资源消耗总量；根据当前时隙下所述服务器处理的任务量、所述加速器处理的任务量和资源消耗总量，得到当前时隙下的惩罚值或奖励值。

20、可选地，按照第一公式计算单一时隙的惩罚值；所述第一公式为：； p t为时隙 t的惩罚值；为时隙 t下所述服务器处理的任务量对应的服务器收益与所述加速器处理的任务量对应的加速器收益之和；为时隙 t下各任务的资源消耗总量， x1收益之和对应的权重值， x2为资源消耗总量对应的权重值；exp表示以常数e为底的指数函数；

21、相应地，按照第二公式计算单一时隙的奖励值；所述第二公式为：； h t为时隙 t的奖励值；为时隙 t下所述服务器处理的任务量对应的服务器收益与所述加速器处理的任务量对应的加速器收益之和；为时隙 t下各任务的资源消耗总量， x1收益之和对应的权重值， x2为资源消耗总量对应的权重值；exp表示以常数e为底的指数函数。

22、可选地，所述利用所述离散性样本集进行强化学习训练，得到任务分配模型，包括：

23、利用所述离散性样本集对待训练q网络中的q函数进行强化学习训练，以在遵循所述预设奖励函数的约束条件和目标的前提下，使所述待训练q网络中的q函数获得最优q值，得到所述任务分配模型。

24、可选地，所述利用所述离散性样本集对待训练q网络中的q函数进行强化学习训练，以在遵循所述预设奖励函数的约束条件和目标的前提下，使所述待训练q网络中的q函数获得最优q值，得到所述任务分配模型，包括：

25、确定样本抽取方式，并按照所述样本抽取方式从所述离散性样本集中抽取目标样本组；

26、将所述目标样本组中同一样本数据中的同一时隙的任务信息和分配策略输入所述待训练q网络，以使所述待训练q网络中的q函数按照所述预设奖励函数的约束条件和目标，输出训练结果；

27、将所述目标样本组中同一样本数据中的上一时隙的奖惩信息和下一本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定每一时隙的分配策略对应的奖惩信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算每一任务在相应执行端的资源消耗量，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据每一任务的数据处理量和相应执行端的端特征信息，计算相应任务在相应执行端的时延、能耗和费用，包括：

5.根据权利要求2所述的方法，其特征在于，任务的资源消耗量超出所述预设执行条件包括：任务的实际时延超过该任务的最大允许时延、任务的实际费用超过该任务的最大费用预算、和/或任务需消耗的处理器资源超过执行该任务的执行端的空闲处理器资源。

6.根据权利要求2所述的方法，其特征在于，针对每一时隙，计算当前时隙下所述服务器处理的任务量和所述加速器处理的任务量；计算当前时隙下各任务的资源消耗总量；根据当前时隙下所述服务器处理的任务量、所述加速器处理的任务量和资源消耗总量，得到当前时隙下的惩罚值或奖励值。

7.根据权利要求6所述的方法，其特征在于，按照第一

8.根据权利要求1至7任一项所述的方法，其特征在于，所述利用所述离散性样本集进行强化学习训练，得到任务分配模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述利用所述离散性样本集对待训练Q网络中的Q函数进行强化学习训练，以在遵循所述预设奖励函数的约束条件和目标的前提下，使所述待训练Q网络中的Q函数获得最优Q值，得到所述任务分配模型，包括：

10.根据权利要求9所述的方法，其特征在于，按照预设奖励函数确定每一时隙的任务信息的分配策略，包括：

11.根据权利要求9所述的方法，其特征在于，所述确定样本抽取方式，并按照所述样本抽取方式从所述离散性样本集中抽取目标样本组，包括：

12.根据权利要求11所述的方法，其特征在于，所述按照选择抽样方式从所述离散性样本集中抽取所述目标样本组，包括：

13.根据权利要求11所述的方法，其特征在于，所述利用随机函数生成目标随机数之前，还包括：

14.根据权利要求9所述的方法，其特征在于，还包括：

15.根据权利要求9所述的方法，其特征在于，所述根据所述训练结果和所述目标结果计算损失，包括：

16.根据权利要求1至7任一项所述的方法，其特征在于，还包括：

17.一种任务分配方法，其特征在于，包括：

18.一种模型训练装置，其特征在于，包括：

19.一种任务分配装置，其特征在于，包括：

20.一种电子设备，其特征在于，包括：

21.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述的方法。

22.一种系统，其特征在于，包括：控制中心、服务器、加速器和多个边缘设备；

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定每一时隙的分配策略对应的奖惩信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算每一任务在相应执行端的资源消耗量，包括：

7.根据权利要求6所述的方法，其特征在于，按照第一公式计算单一时隙的惩罚值；所述第一公式为：；pt为时隙t的惩罚值；为时隙t下所述服务器处理的任务量对应的服务器收益与所述加速器处理的任务量对应的加速器收益之和；为时隙t下各任务的资源消耗总量，x1收益之和对应的权重值，x2为资源消耗总量对应的权重值；exp表示以常数e为底的指数函数；

8.根据权利要求1至7任一项所述的方法，其特征在于，所述利用所述离散性样本集进行强化学习训练，得到任务分配模型，包括：

【专利技术属性】
技术研发人员：杨乐，王彦伟，鲁璐，王江为，
申请(专利权)人：苏州元脑智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人