一种基于端边云及深度强化学习的无人机械协作方法技术

技术编号：30542812 阅读：18 留言：0更新日期：2021-10-30 13:20

一种基于端边云及深度强化学习的无人机械协作方法包括如下步骤：根据无人艇和/或无人机的不同任务的作业要求，设计一个适合该任务的自主导航边缘智能模型；在核心云端基于无人艇和无人机协作的作业要求，进行基于深度强化学习的仿真训练；在核心云端的第一DRL训练模块中基于真实场景采用sim2real部署仿真训练获取的自主导航边缘智能模型；通过第一通讯模块将第一DRL训练模块中的自主导航边缘智能模型下发至边侧端的第二DRL训练模块，本发明专利技术采取端边云计算方案，通过增加节点的方式，使得数据传输的速度更快，处理更及时，而且在无人机和无人艇在执行任务之前，通过测试时延，选择合适的深度强化学习通信架构，可以选择最合适的通信线路，降低通信时延。降低通信时延。降低通信时延。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于端边云及深度强化学习的无人机械协作方法

[0001]专利技术涉及智能设备控制
，特别是一种基于端边云及深度强化学习的无人机械协作方法。

技术介绍

[0002]传统的云计算在之前智能体较少且数据量较少时，利用性能较为强大的核心服务器，可以使得整个系统反应较为迅速。但随着智能体的不断增多，云计算在传输智能体产生的大数据时，容易受到带宽的限制，同时，对于控制系统这类对实时性要求很高的计算问题来说，海量数据的即时处理可能会使云计算滞后，导致智能体反应较慢。
[0003]对于无人机和无人艇来说，执行任务时，环境变化频繁。传统的规划方法可以很好地应对静态环境，但在动态环境中可靠的实现规划仍然是一个很大的挑战。传统的多智能体路径规划方法如最优算法和近似算法，需要提前感知环境。此类方法在环境不是大部分已知的情况下，自适应能力较差，不能满足在复杂多变的环境中作业的需求。
[0004]无人机作为一种边端设备，如果无人机上搭载高性能的处理芯片，其续航能力将大幅下降。因此，无法在无人机上进行大型神经网络训练这样的计算密...

【技术保护点】

【技术特征摘要】
1.一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，所述方法应用于基于端边云及深度强化学习的无人机械协作系统，所述基于端边云及深度强化学习的无人机械协作系统包括：核心云端、边侧端、以及应用端，所述核心云端与所述边侧端双向通讯电联接，所述边侧端与所述应用端双向通讯电联接；所述核心云端包括：边缘应用模型、调度模块、数据管理模块、第一通讯模块、第一DRL训练模块以及机
‑
艇日志分析模块；所述边侧端包括边缘云和边缘网关，其中边缘云包含第二DRL训练模块、数据聚合模块以及缓存管理模块，边缘网关包含节点设备管理模块以及协议转换模块；所述应用端设有本地智能体，所述本地智能体包括周边机
‑
艇感知模块、周边机
‑
艇轨迹预测模块、避障模块、控制模块、第二通讯模块以及数据采集模块；所述本地智能体设置有第三DRL训练模块；基于端边云及深度强化学习的无人机械协作方法包括如下步骤：步骤S1：基于无人艇和/或无人机的任务作业要求，建立自主导航边缘智能模型；步骤S2：在核心云端基于无人艇和无人机协作的作业要求，进行基于深度强化学习的仿真训练；步骤S3：在核心云端的第一DRL训练模块中部署仿真训练获取的自主导航边缘智能模型，同时通过sim2real方法在线进行进一步的真实场景训练；步骤S4：通过第一通讯模块将第一DRL训练模块中的自主导航边缘智能模型下发并部署至边侧端的第二DRL训练模块，同时通过sim2real方法在线进行进一步的真实场景训练；步骤S5：将第二DRL训练模块上自主导航边缘智能模型产生的控制数据通过边缘网关进行协议转换之后下发到应用端，同时应用端中数据采集模块采集的数据也是通过边缘网关进行协议转换之后发送到边缘云；步骤S6：通过第二通讯模块将第一DRL训练模块中的自主导航边缘智能模型下发至本地智能体的第三DRL训练模块，同时通过sim2real方法在线进行进一步的真实场景训练；步骤S7:所述应用端根据数据发送至核心云端以及边侧端两者的时间延迟，选择相应的通讯架构。2.根据权利要求1所述的一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，所述智能体为无人艇和/或无人机。3.根据权利要求1所述的一种基于端边云及深度强化学习的无人机械协作方法，其特征在于，步骤S1中所述自主导航边缘智能模型属于多智能体，多智能体强化学习遵循随机博弈过程，其中随机博弈由多元组组成，其中在多元组内包括：环境状态、多个智能体以及奖励函数，在所述智能体根据环境状态做出相关动作，所述智能体在做出相关动作后所述环境状态反馈出奖励函数，通过分析所述奖励函数判断所述智能体做出的相关动作对于环境状态的影响；所述多元组表示为：＜S,A1,A2,A3...A
n
,R1,R2,R3...R
n
,f,γ＞，其中S表示环境的状态空间，n为大于0的自然整数，A
n
表示不同智能体的动作集合，R
n
:S
×
A
n
×
S
→
R表示单个智能体执行动作后的奖赏函数，γ表示折扣因子；f:S
×
A
n
×
S
→
[0,1]表示状态转移函数，f决定所有智能体在在执行联合动作a∈A后，由
当前状态s∈S转移到下一状态s∈S
′
的概率分布；所有智能体在某一时刻t的联合动作为a
t
，其表达公式为：其中a
i,t
为智能体i在t时刻所执行的动作；其中，每个智能体的个体策略为π
i
：S
×
A
n
→

【专利技术属性】
技术研发人员：徐雍，廖俊森，彭慧，鲁仁全，林明，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人