一种协同计算卸载和资源分配方法及应用组成比例

技术编号:24104411 阅读:45 留言:0更新日期:2020-05-09 15:22
本发明专利技术属于无线通信技术领域,公开了一种协同计算卸载和资源分配方法及应用,通过联合优化协同卸载决策、功率分配、区块链系统的出块大小和出块时间来最大化移动边缘计算的计算速率和区块链系统的吞吐量的加权和,实现两个子系统性能的最优折衷。具体地,首先移动设备的计算任务通过协同通信卸载到MEC服务器上执行,其次采用区块链技术处理自MEC系统的计算卸载交易,同时为了保证集成系统中数据的安全,信任计算模型在协同卸载和块生成过中被考虑。本发明专利技术将这个联合优化问题转化为马尔可夫决策过程问题,并提出了一种高效的基于深度强化学习的卸载决策和资源分配算法。

A method and application of collaborative computing offload and resource allocation

【技术实现步骤摘要】
一种协同计算卸载和资源分配方法及应用
本专利技术属于无线通信
,尤其涉及一种协同计算卸载和资源分配方法及应用。
技术介绍
目前,最接近的现有技术:移动边缘计算(MEC)通过将移动设备上的计算任务卸载到MEC服务执行,从而提高移动设备的计算能力,因此是一种非常有前景的技术,其被应用到车联网(VehicleNetworks),物联网(InternetofThings)和智能城市(SmartCity)等各种领域中。与集中式云计算系统(CloudComputingSystem)相比,MEC系统的分布式结构具有很多优势,包括降低能耗和减少时延。大量的文献已经对MEC的计算卸载和资源分配做了深入的研究,但是,出于以下挑战,这些现有的方法并不适合应用于实际的环境中。一、安全与隐私问题,MEC系统中的安全和隐私是一个具有挑战的问题,如异构边缘节点之间的交互以及跨边缘阶段服务迁移等可能存在安全和隐私泄露隐患。为了解决这个问题,区块链技术被提出。与传统的依赖于可信中央机构的数字分类账方法不同,区块链采用的是社区验证同步跨多个节点复制的分类式账本。区块链可以促进建立可信、安全、分布式的MEC系统。在使能的区块链MEC系统中,MEC服务器不仅要处理自己的任务,还要处理自区块链系统的任务(例如生成块和执行共识过程),而MEC服务器计算资源有限,很容易引起MEC系统和区块链系统计算资源分配不均衡,这使得系统的设计变的更加复杂。比如,当MEC系统分配较多的计算资源时,区块链系统的计算资源势必会较少,从此将导致次优的系统性能。因此,需要考虑同时优化区块链系统和MEC系统的性能,确保两个系统的性能实现最优的折衷。二、协同计算卸载,这种方法在以往的工作中只被少数研究人员考虑过。现有的计算卸载方案大多假设计算任务通过无线通信可以直接卸载到MEC服务器上执行。然而,移动设备可能会遭遇到弱连接或间歇性连接,从而影响计算卸载过程中通信的质量,因此如果直接将计算任务卸载到MEC服务器会影响移动设备的计算体验,所以移动设备必须在邻近节点的帮助下将计算任务转移到MEC服务器。因此,有必要对协同计算卸载进行研究。此外,如果移动设备附近存在恶意节点,那么其数据的安全性和隐私性容易受到攻击。因此,必须在协同计算卸载中考虑信任模型。综上所述,现有技术存在的问题是:(1)现有对MEC和区块链集成系统的设计和优化是独立完成的,资源的不均衡分配将导致系统性能次优的结果。(2)现有对远离MEC服务器的移动设备存在无法直接将计算任务卸载到MEC服务器,如果移动设备附近存在恶意节点,那么其数据的安全性和隐私性容易受到攻击。解决上述技术问题的难度:(1)现有的MEC和区块链集成系统中,MEC服务器同时执行来自移动设备的计算任务和区块链系统的任务,而MEC服务器计算资源有限,很容易导致MEC系统和区块链系统的资源分配不均衡。如何实现MEC系统和区块链系统性能的折衷是一个挑战。(2)当移动设备远离MEC服务器时,由于远距离传输或弱的通信质量,直接卸载计算任务将影响移动设备的计算体验,因此需要借助周围的节点协助计算任务卸载。然而如果周围节点存在恶意的行为,如,丢弃报文或泄露用户信息等,如何保证协同卸载中数据的安全和隐私是一个重要的挑战。解决上述技术问题的意义:联合优化MEC系统和区块链系统的性能能够确保各自系统的正常运行,保证用户的体验不受影响。将信任模型考虑到MEC和区块链集成系统能保证用户数据的隐私和安全,这将加速MEC和区块链集成系统的发展和应用到实际中。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种协同计算卸载和资源分配方法及应用。本专利技术是这样实现的,一种协同计算卸载和资源分配方法,所述协同计算卸载和资源分配方法包括以下步骤:第一步,训练的网络包括一个全局网络和多个本地网络,设置本地网络的个数为W;第二步,全局网络用于存储更新的网络模型,本地网络与各自的环境进行交互,得到各自的网络模型;第三步,训练过程中全局网络首先将自己的参数同步发送给每个本地网络,本地网络根据所获得的参数与环境交互训练自己的网络,将训练好的网络模型异步传输回全局网络,更新全局网络的参数;第四步,分别获得全局网络中actor网络和critic网络的模型,并初始化dθ=0,dθv=0;第五步,每个本地网络同时获得全局网络中actor网络和critic网络参数,即θ′=θ,θ′V=θV;第六步,设置时间t0=t,并且获得当前时刻t的系统状态集S(t);第七步,根据策略π(A(t)|S(t);θ′)获得动作集A(t);执行动作集A(t),得到立即奖励Ri(t)和下一时刻的状态集S(t+1);使得t=t+1,如果满足条件t-t0=tmax,则执行第八步,否则跳回执行根据策略π(A(t)|S(t);θ′)获得动作集A(t);第八步,如果S(t)不是终止的状态,那么价值函数通过本地网络的critic网络更新为R=V(S(t),θ′v),否则,critic网络的价值函数表示为R=0;第九步,从i=t-1开始遍历所有的状态空间,并且更新critic网络的价值函数R,表示如下:R=Ri(t)+γR,其中,γ表示的是折扣因子;第十步,计算每个本地网络中actor网络的策略梯度;第十一步,计算每个本地网络中actor网络的累计策略梯度;第十二步,计算每个本地网络中critic网络的价值梯度;第十三步,计算每个本地网络中critic网络的累计价值梯度;第十四步,判断i是否等于t0,如果是,则执行第十五步,如果否,则执行第九步;第十五步,每个本地网络将训练的网络参数上传给全局网络并更新全局网络的参数;第十六步,将全局网络更新网络参数再同步发送给每个本地网络,进行下一轮网络训练,从第五步再开始执行,直到收敛,最终得到最优的策略。进一步,所述第六步中,当前系统的状态表示如下:S(t)={G(t),T(t),Φs(t),Dtrust(t)};其中,G(t)=(gn(t),gn,r(t),gr,n(t))分别表示的是用户到基站,用户到中继节点和中继节点到基站的信道增益,T(t)表示的是边缘服务器可用的计算资源,Φs(t)表示的是区块链节点所持有的stake数,分别表示的是中继节点和区块链节点的信任值。进一步,所述第七步中,立即奖励的计算公式如下:其中,rn(t)表示的是移动边缘计算系统的计算速率,Ψ(t)表示的是区块链系统的吞吐量,ω1表示的是一个将目标函数合并为单个目标函数的权重因子,ω2是确保两个目标函数在相同水平的映射因子。进一步,所述第十步中,actor网络的策略梯度的计算公式如下:其中H(π(st;θ′))是熵,β表示的是一个控制熵正则化的参数。进一步,所述第十一步中,actor网络的累计策略梯度的计算公式如下:进一步,所述第十二步中,cri本文档来自技高网
...

【技术保护点】
1.一种协同计算卸载和资源分配方法,其特征在于,所述协同计算卸载和资源分配方法包括以下步骤:/n第一步,训练的网络包括一个全局网络和多个本地网络,设置本地网络的个数为W;/n第二步,全局网络用于存储更新的网络模型,本地网络与各自的环境进行交互,得到各自的网络模型;/n第三步,训练过程中全局网络首先将自己的参数同步发送给每个本地网络,本地网络根据所获得的参数与环境交互训练自己的网络,将训练好的网络模型异步传输回全局网络,更新全局网络的参数;/n第四步,分别获得全局网络中actor网络和critic网络的模型,并初始化dθ=0,dθ

【技术特征摘要】
1.一种协同计算卸载和资源分配方法,其特征在于,所述协同计算卸载和资源分配方法包括以下步骤:
第一步,训练的网络包括一个全局网络和多个本地网络,设置本地网络的个数为W;
第二步,全局网络用于存储更新的网络模型,本地网络与各自的环境进行交互,得到各自的网络模型;
第三步,训练过程中全局网络首先将自己的参数同步发送给每个本地网络,本地网络根据所获得的参数与环境交互训练自己的网络,将训练好的网络模型异步传输回全局网络,更新全局网络的参数;
第四步,分别获得全局网络中actor网络和critic网络的模型,并初始化dθ=0,dθv=0;
第五步,每个本地网络同时获得全局网络中actor网络和critic网络参数,即θ′=0,θ′v=θv;
第六步,设置时间t0=t,并且获得当前时刻t的系统状态集S(t);
第七步,根据策略π(A(t)|S(t);θ′)获得动作集A(t);执行动作集A(t),得到立即奖励Ri(t)和下一时刻的状态集S(t+1);使得t=t+1,如果满足条件t-t0=tmax,则执行第八步,否则跳回执行根据策略π(A(t)|S(t);θ′)获得动作集A(t);
第八步,如果S(t)不是终止的状态,那么价值函数通过本地网络的critic网络更新为R=V(S(t),θ′v),否则,critic网络的价值函数表示为R=0;
第九步,从i=t-1开始遍历所有的状态空间,并且更新critic网络的价值函数R,表示如下:R=Ri(t)+γR,其中,γ表示的是折扣因子;
第十步,计算每个本地网络中actor网络的策略梯度;
第十一步,计算每个本地网络中actor网络的累计策略梯度;
第十二步,计算每个本地网络中critic网络的价值梯度;
第十三步,计算每个本地网络中critic网络的累计价值梯度;
第十四步,判断i是否等于t0,如果是,则执行第十五步,如果否,则执行第九步;
第十五步,每个本地网络将训练的网络参数上传给全局网络并更新全局网络的参数;
第十六步,将全局网络更新网络参数再同步发送给每个本地网络,进行下一轮网络训练,从第五步再开始执行,直到收敛,最终得到最优的策略。


...

【专利技术属性】
技术研发人员:裴庆祺冯杰于非
申请(专利权)人:西安电子科技大学西安西电链融科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1