用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质制造方法及图纸

技术编号:36754704 阅读:17 留言:0更新日期:2023-03-04 10:44
本发明专利技术公开了一种边缘计算的分布式模型训练方法、装置、设备和计算机可读介质,属于计算机技术领域。方法包括:训练移动设备中的子网络模型,获得子网络模型的目标模型参数;将目标模型参数传输至接入计算设备中,更新接入计算设备中的公共网络模型;判断子网络模型是否满足模型更新条件,若满足,则获取公共网络模型当前的公共模型参数,利用获取到的公共模型参数训练子网络模型。本发明专利技术实施例提供的分布式模型训练方法用于训练边缘计算系统中的接入设备中的公共网络模型,移动设备中的子网络模型独立与环境交互,根据训练后的子网络模型参数训练接入计算设备中的公共网络模型,可减少公共网络模型的训练模型参数的相关性。减少公共网络模型的训练模型参数的相关性。减少公共网络模型的训练模型参数的相关性。

【技术实现步骤摘要】
用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质


[0001]本专利技术涉及计算机
,特别涉及一种用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质。

技术介绍

[0002]近年来,随着智能设备的飞速发展以及广泛普及,传统的数据处理方式难以满足日益增长的计算需求,移动终端(MD)的盛行对于移动网络、无线网络以及触发器有很大的影响。为了减轻移动终端的运行负荷,技术人员将大量的计算任务从移动终端(MD)上卸载并传输到附近的接入点(AP)、基站等边缘服务器上,这一过程被称为移动边缘计算(Mobile Edge Computing)。移动边缘计算(MEC)能够分担移动端的计算压力,可以有效避免了移动端的任务溢出和超长等待时间等问题。目前,边缘计算已经广泛应用于智能交通、智慧医疗、智能电网、智能工厂、智能城市等关键领域,是我国国民经济、现代社会以及国家安全的重要基础设施的核心系统。
[0003]移动边缘计算技术的核心问题之一是边缘计算卸载问题,边缘计算卸载问题用于确定计算任务是否需要从MD上卸载至边缘服务器上。对于接入设备的模型训练,相关方法中,比如博弈论,往往自适应性低,而深度强化学习计算复杂度高,收敛速度慢,不适用于对时间要求高的无线设备。

技术实现思路

[0004]本专利技术实施例提供了一种用于边缘计算系统的模型训练方法、装置、设备和计算机可读介质。所述技术方案如下:
[0005]第一方面,提供了一种用于边缘计算系统的模型训练方法,所述方法包括:
[0006]训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数;
[0007]将所述目标模型参数传输至接入计算设备中,更新所述接入计算设备中的公共网络模型,所述接入计算设备利用边缘计算系统中各所述移动设备传输的所述目标模型参数,更新所述公共网络模型;
[0008]判断所述子网络模型是否满足模型更新条件,若满足,则获取所述公共网络模型当前的公共模型参数,利用获取到的所述公共模型参数训练所述子网络模型。
[0009]进一步地,所述训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数,包括:
[0010]采用梯度下降法训练获得所述边缘计算系统的和计算率最大时的所述目标模型参数,所述和计算率采用如下公式计算:
[0011][0012]其中,R
t
为t时刻所述边缘计算系统的和计算率,γ∈(0,1]表示折扣因子,r
i
表示
一个移动设备的计算率;
[0013]r
i
@w
i
((1

x
i
)R
L,i
(λ)+x
i
R
O,i
(λ,a
i
))
[0014]其中,i∈N,表示第i个所述移动设备,w
i
为加权系数,R
L,i
(λ)表示第i个所述移动设备本地计算所述计算任务的效率,R
O,i
(λ,a
i
)表示第i个所述移动设备卸载所述计算任务的效率。
[0015]进一步地,所述子网络模型包括:目标行为网络模型,所述目标行为网络模型训练的损失函数为:
[0016]L
a


Q(s
i

θ
(s))
[0017]其中,s表示边缘计算网络的状态,s=h
i
,θ为所述目标行为网络模型的目标行为模型参数,μ
θ
(s)表示基于目标行为模型参数θ且边缘计算网络状态s的卸载策略函数,Q表示基于策略π和状态s做出的动作x
i,t
的动作值函数。
[0018]所述子网络模型包括:目标评价网络模型、辅助评价网络模型和辅助行为网络模型;
[0019]所述目标评价网络模型训练的损失函数根据所述目标评价网络模型的动作值函数以及所述辅助评价网络模型的动作值函数获得;
[0020]所述目标评价网络模型的动作值函数根据所述目标行为网络模型的动作值函数获得,所述辅助评价网络模型的所述动作值函数根据所述辅助行为网络模型的动作值函数获得。
[0021]进一步地,所述目标评价网络模型训练的损失函数为:
[0022]L
c
=MSE(Q
g
(s
i
,x
i
),r
i
+γQ
g'
(s
i'
,x
i'
))
[0023]其中,Q
g
(s
i
,x
i
)表示为基于目标评价模型参数g和状态s做出的动作x
i,t
的动作值函数,
[0024]Q
g'
(s
i'
,x
i'
)表示基于所述辅助评价模型参数g'和状态s
i'
做出的动作x
i'
的动作值函数,
[0025]γ表示折扣因子,
[0026]r
i
表示单步奖励,与相应设备的计算效率相等。
[0027]进一步地,所述辅助评价模型参数和辅助行为网络模型的辅助行为模型参数采用如下公式计算,包括:
[0028][0029]其中,g为所述目标评价模型参数,g'为所述辅助评价模型参数,θ为所述目标行为模型参数,θ'为所述辅助行为模型参数,τ表示折扣因子。
[0030]进一步地,在训练所述子网络模型之前,所述方法还包括:
[0031]将任务数据存储至经验池中,按照数据更新条件更新所述经验池,所述任务数据包括:第一时间的信道增益、卸载行为值、所述子网络模型的计算率、第二时间的信道增益,所述经验池中的所述任务数据用于作为训练样本,训练所述子网络模型。
[0032]第二方面,提供了一种用于边缘计算系统的模型训练装置,包括:
[0033]模型训练模块,用于训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数;
[0034]判断模块,用于判断所述子网络模型是否满足模型更新条件;
[0035]通讯模块,用于将所述目标模型参数传输至接入计算设备中,更新所述接入计算设备中的公共网络模型,所述接入计算设备利用边缘计算系统中各所述移动设备传输的所述目标模型参数,更新所述公共网络模型;
[0036]所述通讯模块,还用于当所述子网络模型满足所述模型更新条件时获取所述公共网络模型当前的公共模型参数;
[0037]所述模型训练模块,还用于利用获取到的所述公共模型参数训练所述子网络模型。
[0038]第三方面,提供了一种电子设备,包括:
[0039]一个或多个处理器;以及
[0040]与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于边缘计算系统的模型训练方法,其特征在于,包括:训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数;将所述目标模型参数传输至接入计算设备中,更新所述接入计算设备中的公共网络模型;判断所述子网络模型是否满足模型更新条件,若满足,则获取所述公共网络模型当前的公共模型参数,利用获取到的所述公共模型参数训练所述子网络模型。2.如权利要求1所述的方法,其特征在于,所述训练移动设备中的子网络模型,获得所述子网络模型的目标模型参数,包括:采用梯度下降法训练获得所述边缘计算系统的和计算率最大时的所述目标模型参数,所述和计算率采用如下公式计算:其中,R
t
为t时刻所述边缘计算系统的和计算率,γ∈(0,1]表示折扣因子,r
i
表示一个移动设备的计算率;r
i
@w
i
((1

x
i
)R
L,i
(λ)+x
i
R
O,i
(λ,a
i
))其中,i∈N,表示第i个所述移动设备,w
i
为加权系数,R
L,i
(λ)表示第i个所述移动设备本地计算所述计算任务的效率,R
O,i
(λ,a
i
)表示第i个所述移动设备卸载所述计算任务的效率,λ={λ
i
|i∈N}。3.如权利要求2所述的方法,其特征在于,所述子网络模型包括:目标行为网络模型,所述目标行为网络模型训练的损失函数为:L
a


Q(s
i

θ
(s))其中,s表示边缘计算网络的状态,s=h
i
,θ为所述目标行为网络模型的目标行为模型参数,μ
θ
(s)表示基于目标行为模型参数θ且边缘计算网络状态s的卸载策略函数,Q表示基于策略π和状态s做出的动作x
i,t
的动作值函数。4.如权利要求2所述的方法,其特征在于,所述子网络模型包括:目标评价网络模型、辅助评价网络模型和辅助行为网络模型;所述目标评价网络模型训练的损失函数根据所述目标评价网络模型的动作值函数以及所述辅助评价网络模型的动作值函数获得;所述目标评价网络模型的动作值函数根据所述目标行为网络模型的动作值函数获得,所述辅助评价网络模型的所述动作值函数根据所述辅助行为网络模型的动作值函数获得。5.如权利要求4所述的方法,其特征在于,所述目标评价网络模型训练的损失函数为:...

【专利技术属性】
技术研发人员:刘智斌刘昱含王心水武骏豪杨文涛王进东
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1