【技术实现步骤摘要】
基于深度强化学习的固定翼无人机编队协调控制方法及装置
本专利技术涉及固定翼无人机控制
,尤其涉及一种基于深度强化学习的固定翼无人机编队协调控制方法及装置。
技术介绍
近年来,随着传感器技术、无线通信技术以及智能控制技术的不断发展与进步,无人机在军事和民用领域得到了广泛的应用,并取得了显著的成功。但受限于单体无人机的固有缺陷,其在复杂环境下执行多样化任务仍面临较大困难。在可以预见的未来,无人机编队将是执行任务的主要载体。因此,无人机编队协调控制技术已成为无人机系统
的一个研究热点。针对无人机编队协调控制,现有技术中通常是采用如模型预测控制、一致性理论等实现,通常需要平台和扰动的精确模型来进行控制率设计,但是这一模型通常具有复杂、时变、非线性的特点,加之传感器误差、环境扰动等随机因素的影响,往往难以精确建模,这严重限制了传统分析方法的适用范围。作为一种代替方法,应用无模型强化学习方法可以解决上述问题,但是现有技术中基于强化学习的无人机编队协调控制解决方案主要是针对旋翼无人机,而与旋翼机相比,由于固定翼无人机的 ...
【技术保护点】
1.一种基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,步骤包括:/n步骤S1、训练阶段:建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数,训练形成执行器网络模型,所述历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态,所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,由所述执行器网络根据所述联合状态输出各僚机的控制指令,并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态;/n步骤S2、执行阶段:执 ...
【技术特征摘要】
1.一种基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,步骤包括:
步骤S1、训练阶段:建立无人机运动学模型以及基于深度神经网络建立执行器网络、评价器网络,并使用各僚机与环境交互过程中的历史数据更新所述执行器网络、评价器网络的网络参数,训练形成执行器网络模型,所述历史数据包括当前状态、执行动作、执行动作获取的回报以及执行动作后达到的状态,所述交互过程中由僚机获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,由所述执行器网络根据所述联合状态输出各僚机的控制指令,并根据所述无人机运动学模型得到长机以及僚机的下一时刻状态;
步骤S2、执行阶段:执行飞行任务时,各僚机分别实时获取自身、长机以及除当前僚机以外其他僚机的当前状态信息构成联合状态,载入训练后形成的所述执行器网络模型,由所述执行器网络模型根据实时获取的所述联合状态输出各僚机的控制指令,所述控制指令包括滚转角控制指令、速度控制指令。
2.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,所述步骤S1中无人机运动学模型具体采用四自由度模型,并引入包括滚转和/或空速子状态的随机项形成具有随机性的固定翼无人机运动学模型。
3.根据权利要求2所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,建立的所述固定翼无人机运动学模型具体为:
其中,(x,y)表示无人机的x-y平面位置;ψ表示无人机的航向角;φ表示无人机的滚转角;αg表示重力加速度;ηx,ηx,ηψ分别为扰动项且分别服从正态分布以用于模拟无人机位置和航向因环境因素而产生的扰动;f(φ,φd)为期望滚转角φd与实际滚转角φ之间的函数关系,f(v,vd)为期望空速vd与实际空速v之间的函数关系。
4.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于:所述执行器网络包括一个动作选择网络以将输入状态映射到输出动作,所述动作选择网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用tanh激活函数将执行器输出值控制在(-1,+1)之间,线性放大后映射到滚转动作空间和速度动作空间;所述评价器网络包括一个价值评估网络以将输入状态映射到所述输入状态对应的价值函数,其中所述价值评估网络包括2层全连接层和1层输出层,其中全连接层均使用ReLU激活函数,输出层使用linear激活函数;
所述执行器网络以及所述评价器网络均还包括一个特征提取网络,所述特征提取网络分别包括1层全连接层、1个嵌入模块和1层合并层;所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层以及1层压平层;所述SE模块包括1层全局平均池化层、2层全连接层及1层缩放层,所述全连接层用于处理长机与僚机之间的联合状态,所述嵌入模块用于处理僚机与其他僚机之间的联合状态,所述合并层用于融合全连接层和嵌入模块的输出,生成所述联合状态输出。
5.根据权利要求4所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,所述嵌入模块包括1层填充层、2层卷积层、2个SE模块、2层转置层、1层最大池化层和1层压平层;所述SE模块包括1层缩放层、1层全局平均池化层以及2层全连接层,其中2层卷积层中第一卷积层的卷积核尺寸与当前僚机、其他僚机之间联合状态的维度相等,所述2个SE模块中第一SE模块的第一全连接层的网络节点数等于所述第一卷积层的卷积核数的1/4,第二全连接层的网络节点数等于所述第一卷积层的卷积核数;所述2层卷积层中第二卷积层的卷积核尺寸与所述第一卷积层的卷积核数相等,所述2个SE模块中第二SE模块的第一全连接层的网络节点数等于所示第二卷积层的卷积核数的1/4,第二全连接层的网络节点数等于所述第二卷积层的卷积核数。
6.根据权利要求1所述的基于深度强化学习的固定翼无人机编队协调控制方法,其特征在于,所述步骤S1中训练形成执...
【专利技术属性】
技术研发人员:闫超,王菖,相晓嘉,吴立珍,黄依新,兰珍,刘兴宇,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。