System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及通信,尤其涉及一种博弈方法、装置及可读存储介质。
技术介绍
1、随着移动边缘计算(mobile edge computing,mec)和第五代移动通信技术(5thgeneration,5g)技术的快速发展,网络数据量呈指数式增长,这使得很多基于机器学习(machine learning,ml)的应用得以快速发展。
2、为了防止用户数据信息被滥用,提出了一种分散的ml技术——联邦学习(federated learning,fl)来训练模型。在fl中,每个终端设备可以使用本地数据样本训练本地模型。然后,将所有终端设备的本地模型进行聚合,生成全局fl模型。
3、在现有的mec与fl结合的资源分配场景中,终端设备不会主动提供计算资源,造成大量的终端设备计算资源浪费。如何提升终端设备计算资源利用率是亟待解决的技术问题。
技术实现思路
1、本申请提供了一种博弈方法、装置及可读存储介质,用于提升终端设备计算资源利用率。
2、为达到上述目的,本申请采用如下技术方案:
3、第一方面,提供了一种博弈方法,该方法包括:确定目标小区中的待训练终端;待训练终端为目标小区中接受训练任务的终端;训练任务用于请求待训练终端对预设模型进行训练;建立博弈模型;博弈模型包括用于确定基站的收益的第一效益函数,以及,用于确定待训练终端的收益的第二效益函数;第一效益函数与虚拟资源奖励相关,第二效益函数与占用cpu频率相关;占用cpu频率为待训练终端处理训练任务时
4、可选的,根据博弈模型确定目标占用cpu频率和目标虚拟资源奖励,包括:获取待训练终端的终端数量、系统参数、占用cpu频率;系统参数与待训练终端处理训练任务所需的cpu频率、待训练终端中所包括的样本数量、预设精度相关;根据待训练终端的终端数量、系统参数以及第一效益函数更新虚拟资源奖励,得到更新后的虚拟资源奖励;更新后的虚拟资源奖励为第一效益函数峰值处对应的虚拟资源奖励;针对多个待训练终端中的每个待训练终端,根据第二效益函数、待训练终端的终端数量、系统参数更新占用cpu频率,得到更新后的占用cpu频率;更新后的占用cpu频率为在纳什均衡点时第二效益函数峰值处对应的占用cpu频率;去除多个待训练终端中的无效终端,得到更新后的待训练终端的终端数量;无效终端为占用cpu频率小于或等于占用cpu频率阈值的终端;迭代上述步骤,直至更新后的待训练终端的终端数量与更新前的待训练终端的终端数量相同,并将更新后的待训练终端的终端数量对应的占用cpu频率确定为目标占用cpu频率,以及,将更新后的待训练终端的终端数量对应的虚拟资源奖励确定为目标虚拟资源奖励。
5、可选的,确定目标小区中的待训练终端,包括:向目标小区中的多个终端设备发送公告消息;公告消息包括训练任务以及虚拟资源奖励;针对多个终端设备中的每个终端设备,若接收到终端设备发送的第一指示消息,则确定终端设备为待训练终端;第一指示消息用于指示终端设备接受训练任务。
6、可选的,该方法还包括:确定第一效益函数和第二效益函数的函数类型;在第一效益函数和第二效益函数的函数类型均为凸函数的情况下,确定博弈模型存在博弈均衡。
7、可选的,第一效益函数为:第二效益函数为:其中,ubs(η)表示基站的收益,λ表示基站对完成训练任务的满意程度,fn表示第n个待训练终端占用cpu,cn表示第n个待训练终端处理训练任务所需的cpu频率,η表示虚拟资源奖励的数量之和,n表示待训练终端的数量之和,un(fn,f-n)表示终端设备的收益,表示待训练终端完成训练任务的成本。
8、基于本申请提供的技术方案,可以通过建立博弈模型,在博弈模型存在博弈均衡的情况下,根据博弈模型确定目标占用cpu频率和目标虚拟资源奖励。由于训练终端在纳什均衡点时使用目标占用cpu频率的收益大于使用其他占用cpu频率的收益,基站使用目标虚拟资源奖励时的收益大于使用其他虚拟资源奖励时的收益,也即,在使用目标占用cpu频率和目标虚拟资源奖励时的情况下,终端设备和基站的收益最高,这样,可以在最大化终端设备收益的同时,保证基站的最大化收益。进一步,向待训练终端发送目标占用cpu频率和目标虚拟资源奖励,这样,可以提高终端设备的参与度,使得更多的终端设备参与到训练任务,提高终端设备计算资源利用率。
9、第二方面,提供了一种博弈装置,装置包括:确定单元、处理单元、发送单元;确定单元,用于确定目标小区中的待训练终端;待训练终端为目标小区中接受训练任务的终端;训练任务用于请求待训练终端对预设模型进行训练;处理单元,用于将第一商品数据和第二商品数据进行比对,得到第一商品数据和第二商品数据之间的差异数据;确定单元,用于建立博弈模型;博弈模型包括用于确定基站的收益的第一效益函数,以及,用于确定待训练终端的收益的第二效益函数;第一效益函数与虚拟资源奖励相关,第二效益函数与占用cpu频率相关;占用cpu频率为待训练终端处理训练任务时所占用的cpu频率;虚拟资源奖励为基站在待训练终端对预设模型进行训练后下发的;确定单元,还用于在博弈模型存在博弈均衡的情况下,根据博弈模型确定目标占用cpu频率和目标虚拟资源奖励;待训练终端在纳什均衡点时使用目标占用cpu频率的收益大于使用其他占用cpu频率的收益,基站使用目标虚拟资源奖励时的收益大于使用其他虚拟资源奖励时的收益;发送单元,用于向待训练终端发送目标占用cpu频率和目标虚拟资源奖励。
10、可选的,确定单元,具体用于:获取待训练终端的终端数量、系统参数、占用cpu频率;系统参数与待训练终端处理训练任务所需的cpu频率、待训练终端中所包括的样本数量、预设精度相关;根据待训练终端的终端数量、系统参数以及第一效益函数更新虚拟资源奖励,得到更新后的虚拟资源奖励;更新后的虚拟资源奖励为第一效益函数峰值处对应的虚拟资源奖励;针对多个待训练终端中的每个待训练终端,根据第二效益函数、待训练终端的终端数量、系统参数更新占用cpu频率,得到更新后的占用cpu频率;更新后的占用cpu频率为在纳什均衡点时第二效益函数峰值处对应的占用cpu频率;去除多个待训练终端中的无效终端,得到更新后的待训练终端的终端数量;无效终端为占用cpu频率小于或等于占用cpu频率阈值的终端;迭代上述步骤,直至更新后的待训练终端的终端数量与更新前的待训练终端的终端数量相同,并将更新后的待训练终端的终端数量对应的占用cpu频率确定为目标占用cpu频率,以及,将更新后的待训练终端的终端数量对应的虚拟资源奖励确定为目标虚拟资源奖励。
11本文档来自技高网...
【技术保护点】
1.一种博弈方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述博弈模型确定目标占用cpu频率和目标虚拟资源奖励,包括:
3.根据权利要求2所述的方法,其特征在于,所述确定目标小区中的待训练终端,包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述第一效益函数为:
6.一种博弈装置,其特征在于,所述装置包括:确定单元、处理单元、发送单元;
7.根据权利要求6所述的装置,其特征在于,所述确定单元,具体用于:
8.根据权利要求7所述的装置,其特征在于,所述确定单元,具体还用于:
9.根据权利要求6-8中任一项所述的装置,其特征在于,所述确定单元,还用于:
10.根据权利要求7所述的装置,其特征在于,所述第一效益函数为:
11.一种博弈装置,其特征在于,包括:处理器、存储器和通信接口;其中,通信接口用于所述博弈装置和其他设备或网络通信;所述存储器用于存储一个或
12.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有指令,当所述指令被执行时,实现如权利要求1-5中任一项所述的方法。
...【技术特征摘要】
1.一种博弈方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述博弈模型确定目标占用cpu频率和目标虚拟资源奖励,包括:
3.根据权利要求2所述的方法,其特征在于,所述确定目标小区中的待训练终端,包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述第一效益函数为:
6.一种博弈装置,其特征在于,所述装置包括:确定单元、处理单元、发送单元;
7.根据权利要求6所述的装置,其特征在于,所述确定单元,具体用于:
8.根据权利要求7所述的装置,其特征在于,所述确...
【专利技术属性】
技术研发人员:王名,鲁峥,戚帅,杨来志,孙朝阳,符勇男,张佳乐,余凤,黄兆如,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。