一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法组成比例

技术编号:33630973 阅读:18 留言:0更新日期:2022-06-02 01:34
本发明专利技术提供了一种基于多智能体深度强化学习的矩阵

【技术实现步骤摘要】
一种基于多智能体深度强化学习的矩阵

向量乘法编码计算分配方法


[0001]本专利技术涉及人工智能
,尤其涉及一种基于多智能体深度强化学习的矩阵

向量乘法编码计算分配方法。

技术介绍

[0002]无人机作为一种常见的智能体,具有体积小、部署容易、灵活性强等优点,在执行应急型业务服务如紧急救援、监控监测得等方面到了广泛应用。无人机在完成上述应用中经常需要搭载人工智能算法进行路径规划与物体识别,同时运用机器学习或图像处理等技术对收集到的数据进行分析和预测,这个过程存在大量矩阵向量乘法(Matrix Vector Multiplication,MVM)运算,比如在卷积神经网络的训练中,包括大量的梯度下降运算以及神经网络模型数百万参数的更新,其矩阵乘法维度达到105*105。
[0003]智能体的计算能力有限,限制了其满足计算类业务用户的服务质量。智能体的计算资源由于节点异构性、硬件故障等因素,会导致多智能体网络中慢节点的存在。由于计算任务被分发至多个工作节点处理并等待所有计算结果的返回,部分节点的计算速度过慢导致整体任务处理时延增加,使得服务质量降低。
[0004]编码计算是通过冗余策略降低慢节点时延影响加速分布式计算的有效方法,目前分布式编码计算中常用的编码方案主要分为两种,一种是复制(Replication)策略,另一种是纠删码(Erasure

Coding)策略。其中在复制策略中,主节点将计算任务划分成数据块,并复制成多份,然后发送到不同的节点进行计算,当有节点发生计算迟滞的时候,可以从计算速度较快的节点中获取计算结果。这种容错策略将存储数据复制成了多份,存储效率低,大大增加了存储开销,并且对于计算时延的提升并不是特别明显。
[0005]当前的分布式编码计算的纠删码主要有两种,一种是最大距离可分码(MDS code)策略,另一种是无速率码(rateless code)策略。其中,(n,k)MDS码策略中是计算任务平均划分成k份并通过编码获得n个子任务,通过获取k个结算结果恢复原始任务的计算结果,这种容错策略可以容忍n

k个慢节点对计算任务的时延影响,但是造成了这部分慢节点所得到计算结果的浪费。无速率码是通过冗余特性降低慢节点影响,相比于MDS码,无速率码由于其特殊的编解码方式在降低慢节点的时延影响的同时也充分利用了慢节点的结算结果,不会造成计算结果的浪费。

技术实现思路

[0006]本专利技术提供了一种基于多智能体深度强化学习的矩阵

向量乘法编码计算分配方法,包括如下步骤:
[0007]步骤一:构建一个出多智能体(无人机)多边缘基站的矩阵

向量乘法任务卸载系统模型;
[0008]步骤二:将该系统模型的工作流程分为如下三步:
[0009]步骤1:任务编码,将计算任务按照无速率码的规则进行编码;
[0010]步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;
[0011]步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体;
[0012]步骤三:建立最小化系统成本的优化问题;
[0013]步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体

深度确定性策略梯度(MA

DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。
[0014]本专利技术的有益效果是:本专利技术针对多智能体(无人机)多边缘基站的计算卸载问题进行了研究,不仅考虑到边缘基站计算能力和慢节点参数的异构性,同时考虑无人机和边缘基站通信的带宽资源的有限性,并且在通过无速率码的分布式编码计算降低了慢节点对计算任务的处理影响,从而减小了计算务的处理成本,实现无人机计算任务的高效处理。
附图说明
[0015]图1是多无人机多基站计算任务卸载的系统模型图;
[0016]图2是深度强化学习MA

DDPG算法流程图;
[0017]图3是MA

DDPG算法下迭代次数与回报的关系图;
[0018]图4是采用飞行卸载和原地卸载方案的迭代次数和回报的关系图;
[0019]图5是采用MDS码和无速率方案的迭代次数和回报的关系图;
[0020]图6是不同无人机数量下系统指标及算法性能图;
[0021]图7是不同基站数量下系统指标及算法性能图;
[0022]图8是不同批采样大小下的迭代次数和回报的关系图。
具体实施方式
[0023]智能协作网络中的计算分配问题存在两个关键性问体。第一,多智能体网络慢节点现象,原因是节点能力有限且容易发生临时故障,导致计算任务需要等待最慢的节点完成处理,造成总体时延增加;第二,多智能体网络的动态适应性问题,由于智能体具有移动性,传统的优化算法无法适应环境的改变,不合理的MVM任务分配也会导致系统性能的下降。为解决上述问题,本专利技术以降低时延

能耗加权成本为目标,利用编码计算技术解决慢节点问题,并且采用MA

DDPG深度强化学习算法使得任务分配方案对多智能体网络的动态环境具有高适应性。
[0024]深度强化学习可以通过同时优化多无人机的动作选择即计算分配来降低系统成本,直至收敛,且训练出的网络模型具有适应性,可以对不同的环境都取得良好的效果。
[0025]本专利技术公开了一种基于多智能体深度强化学习的矩阵

向量乘法编码计算分配方法,以多无人机多基站协作的多智能体网络为例,包括:
[0026]步骤一:构建一个出多智能体(无人机)多基站的任务卸载的系统模型;
[0027]步骤二:将该系统模型的工作流程分为三步:
[0028]步骤1:任务编码,将计算任务按照无速率码的规则进行编码;
[0029]步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;
[0030]步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体。
[0031]步骤三:建立最小化系统成本的优化问题。
[0032]步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体

深度确定性策略梯度(MA

DDPG)算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。
[0033]具体为:
[0034]步骤一:
[0035]系统模型如图1所示,该模型由M个UAV和P个基站组成,UAV的集合表示为基站的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体深度强化学习的矩阵

向量乘法编码计算分配方法,其特征在于,包括如下步骤:步骤一:构建一个多智能体多边缘基站的矩阵

向量乘法任务卸载系统模型,智能体为无人机;步骤二:将该系统模型的工作流程分为如下三步:步骤1:任务编码,将计算任务按照无速率码的规则进行编码;步骤2:任务卸载,无人机飞行至各自的卸载点并按照任务分配的比例进行卸载;步骤3:分布式计算,边缘基站接收到智能体卸载的任务后,按照计算资源分配的比例进行分布式编码计算,计算完成后将计算结果回传至智能体;步骤三:建立最小化系统成本的优化问题;步骤四:确定深度强化学习算法的四元组<状态S,动作A,回报R,转移概率P>,通过多智能体

深度确定性策略梯度算法求解优化问题,获得最优的任务分配量、智能体飞行轨迹、传输带宽和计算资源等参数。2.根据权利要求1所述的矩阵

向量乘法编码计算分配方法,其特征在于,在所述步骤一中,系统模型由M个UAV和P个基站组成,UAV的集合表示为基站的集合表示为假设无人机和基站之间是视距传输信道,第m个无人机初始坐标第p个BS的三维坐标为所以第m个无人机和第p个BS的直线距离可以表示为:那么,信道增益h
m,p
可以表示为:h
m,p
=β0(d
m,p
)
‑2其中,β0代表归一化信道增益;假设整个系统M个无人机的总传输带宽是B,并且采用频分多址技术来保证多无人机可以同时进行任务卸载,带宽的分配矩阵Ω可以表示为:其中,ω
m,p
代表第m个无人机和第p个地面基站之间信道带宽的比例,且满足第m个无人机和第p个地面基站之间的信道传输速率可以表示为:
其中,代表第m个无人机的卸载功率,N0代表噪声功率谱密度。3.根据权利要求1所述的矩阵

向量乘法编码计算分配方法,其特征在于,在所述步骤二的步骤1中,无人机将计算任务按照LT无速率码的编码规则进行预处理,并将计算任务按照比例划分多个子任务;第m个无人机的任务可以表示为其中D
m
代表任务比特数,F
m
代表工作负载,代表无人机任务处理的容忍时间;假设无人机的计算任务是以矩阵向量乘法形式表征,即y
m
=A
m
x,其中待计算的矩阵行数l
m
和数据量D
m
之间的关系可以表示为:其中b是计算一个长度为k的内积的比特数;无人机在对任务矩阵进行编码处理,即对A
m
进行无速率编码得到所以第m个UAV计算任务经过编码后的数据量D
m
可以表示为:D
m
=α
m
D
m
无人机将编码后的矩阵按比例分配给边缘基站,其分配矩阵Γ可以表示为:其中,γ
m,p
代表第m个无人机分配给第p个边缘基站的计算任务的比例,且满足所以,第m个无人机的任务可以表示为A
m
=[A
m,1
;A
m,2


;A
m,p


;A
m,P
],子矩阵A
m,p
的行数可以表示为l
m,p
:l
m,p
=γ
m,p
·
α
m
·
l
m
。4.根据权利要求1所述的矩阵

向量乘法编码计算分配方法,其特征在于,在所述步骤二的步骤2中,对于每个无人机都采用全卸载策略,即无人机将计算任务全部卸载至地面基站;每个无人机先飞行至各自的卸载点,假设第m个无人机的卸载点坐标为所以第m个无人机飞行至卸载点的时延可以表示为:其中v
m
代表第m个无人机的飞行速度;无人机飞行至卸载点后通过相应的视距传输信道将任务卸载至地面基站,所以第m个无人机将计算任务卸载至第p个基站的传输时间可以表示为:无人机将计算任务卸载完成之后就原地悬停,等待地面基站将计算结果处理返回。5.根据权利要求1所述的矩阵

向量乘法编码计算分配方法,其特征在于,在所述步骤
二的步骤3中,地面基站接收到无人机所卸载的任务后,进行分布式计算;假设地面总计算资源为f
max
,对于处理来自于不同无人机的计算任务分配不同的计算资源,其分配矩阵Λ可以表示为其中,λ
m,p
代表第p个基站处理来自于第m个无人机的子任务的计算资源占比,即所以,第p个基站处理第m个无人机所卸载的大小为单个内积的计算任务的时间为其中ρ
n
为第n个BS的CP...

【专利技术属性】
技术研发人员:顾术实郭云开张智凯逄博张钦宇
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1