基于深度强化学习的固定翼无人机群集控制避碰方法及装置制造方法及图纸

技术编号:26169435 阅读:36 留言:0更新日期:2020-10-31 13:32
本发明专利技术公开一种基于深度强化学习的固定翼无人机群集控制避碰方法及装置,该方法步骤包括:S1.建立无人机运动学模型以及D3QN,并使用各僚机与环境交互过程中的历史交互数据更新网络参数,训练形成D3QN模型,其中交互过程中根据环境状态构建僚机与长机之间的联合状态,同时进行态势评估构建得到局部地图,输入至D3QN模型得到各僚机的控制指令输出;S2.各僚机分别实时获取状态信息构成当前僚机与长机之间联合状态,实时进行态势评估构建得到局部地图;将实时构建的联合状态、局部地图输入至D3QN网络模型得到各僚机的控制指令。本发明专利技术具有实现方法简单、可扩展性好,能够实现固定翼无人机群集控制,同时避免碰撞等优点。

【技术实现步骤摘要】
基于深度强化学习的固定翼无人机群集控制避碰方法及装置
本专利技术涉及固定翼无人机群集控制
,尤其涉及一种基于深度强化学习的固定翼无人机群集控制避碰方法及装置。
技术介绍
随着无人机系统技术的不断发展,无人机在灾难搜救、地理测绘、军事侦查等各类军事行动和民用任务得到了广泛的应用。近年来,无人机的运用样式已逐步从单平台转向多平台、朝着集群化的方向发展。尽管近年来无人机在操作自主性方面取得了长足的进步,但在动态环境下高效便捷地操控无人机集群群集仍然面临较大挑战。目前无人机群集控制方法可分为两大类:规则型方法和学习型方法,其中规则型方法的灵活性和扩展性较差,学习型方法可以解决上述问题,尤其是强化学习型方法近年来得到了广泛的关注,也取得了较为成功的应用。但现有技术中基于强化学习的无人机群集控制解决方案通常都是主要针对旋翼无人机,而与旋翼无人机不同,由于固定翼无人机的飞行动力学的非完整约束,固定翼无人机群集控制更加复杂,适用于旋翼机的控制策略并不能直接应用于固定翼无人机群集控制。有从业者提出使用深度强化学习方法解决固定翼无人机群集控制本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的固定翼无人机群集控制避碰方法,其特征在于,步骤包括:/nS1.模型训练:建立无人机运动学模型以及用于输出无人机控制指令的D3QN,并使用各僚机与环境交互过程中的历史交互数据更新所述D3QN的网络参数,训练形成D3QN模型,其中所述交互过程中,由各僚机分别获取自身及长机的状态信息构成当前僚机与长机之间的联合状态,根据获取的僚机自身及邻近僚机的状态进行态势评估以评估无人机间的碰撞风险,并构建得到以当前僚机为中心的局部地图;将所述联合状态、局部地图输入至所述D3QN模型得到各僚机的控制指令输出,并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态;/nS2.在线执行:各...

【技术特征摘要】
1.一种基于深度强化学习的固定翼无人机群集控制避碰方法,其特征在于,步骤包括:
S1.模型训练:建立无人机运动学模型以及用于输出无人机控制指令的D3QN,并使用各僚机与环境交互过程中的历史交互数据更新所述D3QN的网络参数,训练形成D3QN模型,其中所述交互过程中,由各僚机分别获取自身及长机的状态信息构成当前僚机与长机之间的联合状态,根据获取的僚机自身及邻近僚机的状态进行态势评估以评估无人机间的碰撞风险,并构建得到以当前僚机为中心的局部地图;将所述联合状态、局部地图输入至所述D3QN模型得到各僚机的控制指令输出,并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态;
S2.在线执行:各僚机分别实时获取自身及长机的状态信息构成当前僚机与长机之间联合状态,根据实时获取的僚机自身及邻近僚机的状态信息进行所述态势评估,实时构建得到以当前僚机为中心的局部地图;将实时构建的所述联合状态、局部地图输入至所述D3QN网络模型得到各僚机的控制指令输出,所述控制指令包括滚转角控制指令、速度控制指令。


2.根据权利要求1所述的基于深度强化学习的固定翼无人机群集控制避碰方法,其特征在于,所述进行态势评估的步骤包括:
确定无人机前部、尾部危险区域的几何形状以及对应的半径;
评估僚机危险区域内的碰撞风险:根据所述无人机前部危险区域的半径Rf、机间最小安全距离Rs以及位置p与僚机之间的距离评估单架僚机周围的位置p处的碰撞风险Cp;
由计算得到的单架僚机的所述碰撞风险Cp计算所有僚机的综合碰撞风险值Cs;
将计算得到的所述综合碰撞风险值Cs映射到灰度颜色空间,构建得到以当前僚机为中心的所述局部地图。


3.根据权利要求2所述的基于深度强化学习的固定翼无人机群集控制避碰方法,其特征在于,所述僚机周围的位置p处的碰撞风险Cp具体按下式计算得到:



其中,D为位置p与僚机之间的距离。


4.根据权利要求2所述的基于深度强化学习的固定翼无人机群集控制避碰方法,其特征在于,构建所述局部地图时,具体按照下式将所述综合碰撞风险值Cs映射到灰度颜色空间:



其中,Gmax和Gmin分别表示最大灰度值和最小灰度值;Cma和Cmin分别表示综合碰撞风险的最大值和最小值。


5.根据权利要求1所述的基于深度强化学习的固定翼无人机群集控制避碰方法,其特征在于,所述步骤S1中构建D3QN时包括构建结构相同的D3QN主网络以及D3QN目标网络,所述D3QN主网络、D3QN目标网络均分别包括特征提取网络和竞争网络,所述特征提取网络包括1层全连接层FC1、卷积神经网络和1层合并层,所述全连接层用于处理当前僚机与长机之间的联合状态,所述卷积神经网络用于提取所述局部地图的特征向量,所述合并层用于融合所述全连接层的输出和所述卷积神经网络的输出,生成最终的系统联合状态的特征输出;
所述竞争网络包含2层全连接层FC2、FC3以及1层拆分层、1个分支结构、1层聚合层,所述拆分层将所述全连接层FC2、FC3的输出拆分为等同维度的两部分,分别用于评估状态值函数和动作优势函数;所述分支结构包括状态值函数分支、滚转动作优势函数分支以及速度动作优势函数分支,分别对应当前状态的值函数、当前状态下待选滚转动作的优势函数和待选速度动作的优势函数;所述聚合层将所述状态值函数分支输出分别与所述滚转动作优势函数分支输出、所述速度动作优势函数分支的输出聚合,生成滚转动作的Q值和速度动作的Q值。


6.根据权利要求1~5中任意一项所述的基于深度强化学习的固定翼无人机群集控制避碰方法,其特征在于,所述联合...

【专利技术属性】
技术研发人员:闫超相晓嘉王菖吴立珍黄依新刘兴宇兰珍
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1