System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及无人机导航,尤其涉及一种基于深度强化学习和pid控制器的无人机导航方法。
技术介绍
1、无人机技术的迅猛发展已经使其在各种应用领域中变得越来越重要,其中之一是无人机在导航任务中的应用。这些任务涵盖了广泛的应用领域,包括搜索与救援、农业、环境监测、交通监管和无人机配送等。在这些任务中,无人机需要根据环境中的感知信息和任务目标来做出决策,以实现精确的位置控制和轨迹跟踪。传统的比例-积分-微分proportional-integral-derivative, pid控制方法在无人机导航中被广泛使用,它们通常能够提供稳定的性能。然而,pid控制方法无法很好地处理复杂的非线性系统,且通常需要手动调整参数,这在大规模应用中受到限制。
2、随着深度学习和强化学习的不断发展,逐渐衍生出一个新兴的交叉领域,即深度强化学习deep reinforcement learning, drl。深度强化学习为智能体提供了一种端到端学习策略的方式,具有可处理复杂非线性问题等优点,因此被广泛用于解决路径导航、路径规划等问题。然而,目前深度强化学习在无人机导航中应用仍存在一系列挑战。首先,深度强化学习方法需要大量的训练数据,而实际操控无人机进行大规模训练是不切实际的,因此通常需要先在模拟环境中训练,然后迁移至真实环境,但现有的工作往往不考虑真实的动力学模型,这将给实际应用带来极大限制。此外,深度强化学习的决策过程通常缺乏确定性保证,这使得在无人机执行关键任务时难以放心将深度强化学习作为主要的导航控制器。与此同时,深度强化学习模型在面临不
技术实现思路
1、针对现有技术的不足,本专利技术提供了一种基于深度强化学习和pid控制器的无人机导航方法,解决了传统无人机导航方法在深度强化学习的决策过程缺乏确定性保证以及现有工作大都通过奖励稀疏的设计较为困难且难收敛的问题,该无人机导航方法利用深度强化学习在稀疏奖励环境中进行自主路径规划,然后使用pid控制器控制高仿真无人机飞行,最终使无人机沿着高效路径安全、平稳、无碰撞地到达目标区域。
2、为解决上述技术问题,本专利技术提供了如下技术方案:一种基于深度强化学习和pid控制器的无人机导航方法,包括以下步骤:
3、s1、获取无人机执行导航任务时的无人机状态向量,所述无人机状态向量包括无人机状态信息和目标;
4、s2、构建深度强化学习网络,将无人机状态向量输入深度强化学习网络中,输出最优动作,获取无人机的目标状态,将目标状态输入pid控制器模块中,输出无人机的螺旋桨转速值以控制无人机飞行,进而获取原始经验并将原始经验存储进原始经验存储池中;
5、s3、将原始经验存储池中的原始经验输入经验扩展模块,得到扩展经验,并将扩展经验存储于经验回放池中,利用扩展经验更新深度强化学习网络得到训练后的深度强化学习模型;
6、s4、重新获取无人机状态向量,输入到训练后的深度强化学习网络中,得到无人机的最优动作,将最优动作处理为目标状态再次输入pid控制模块中,输出控制命令指引无人机完成导航。
7、进一步地,在步骤s1中,所述无人机状态信息;
8、其中,为t时刻无人机当前所在位置的 x轴坐标,为t时刻无人机当前所在位置的y轴坐标,为t时刻无人机当前所在位置的z轴坐标,为t时刻无人机的滚转角,为t时刻无人机的俯仰角,为t时刻无人机的偏航角,为t时刻无人机在x轴上的线速度分量,为t时刻无人机在y轴上的线速度分量,为t时刻无人机在z轴上的线速度分量,为t时刻无人机的角速度,为无人机携带的雷达测距仪反馈的障碍物信息,为无人机已执行的动作次数;所述目标为无人机需要到达的位置坐标。
9、进一步地,在步骤s2中,所述深度强化学习网络包括动作网络、q值网络、原始经验存储池、经验扩展模块、经验回放池,其依次连接构成;所述pid控制器模块包括位置控制器、姿态控制器。
10、进一步地,在步骤s2中,具体过程包括以下步骤:
11、s21、调用仿真环境自身初始化函数,随机选取某个目标点作为目标,并获取对应的无人机状态信息,将和进行向量拼接得到对应的无人机状态向量;
12、s22、将s21得到的无人机状态向量输入动作网络中,得到无人机参数向量;
13、s23、将s21得到无人机状态向量和s22得到的无人机参数向量输入q值网络中,得到无人机的最优动作;
14、s24、根据最优动作计算得到无人机的目标状态,所述目标状态包括目标位置、目标姿态、目标线速度;
15、s25、将目标状态输入pid控制模块中,得到无人机的螺旋桨转速值,将螺旋桨转速值施加给无人机控制其运动,获取下一时刻无人机状态信息,并通过环境反馈获取即时奖励,将作为原始经验存储于原始经验存储池中;
16、s26、重复步骤s22-s25,直至无人机成功导航到目标区域内或执行的动作次数达到环境限制的最大次数。
17、进一步地,所述s23具体包括以下步骤:
18、s231、将s23中的无人机参数向量等价扩充为如下的矩阵,将s21中的无人机状态向量分别与矩阵的每一行拼接,输入到q值网络中,得到状态动作值估计矩阵;其中,所述无人机参数向量中的每一个元素为t时刻无人机在水平方向上的加速度、t时刻无人机在垂直方向上的加速度或t时刻无人机的偏航角度;
19、s232、取出状态动作值估计矩阵的所有对角线元素构成动作估计q值集合,根据动作估计q值集合中最大的元素得到源动作;其中,所述源动作为t时刻无人机在水平方向移动、t时刻无人机在垂直方向移动转向或t时刻无人机的偏航角度;
20、s233、从s23中的无人机参数向量中取出源动作对应的参数,将与进行组合作为t时刻无人机需要执行的最优动作;其中,t为当前时刻,为源动作的个数,为源动作的索引,。
21、进一步地,所述s24具体包括:从所述无人机状态向量中得到无人机当前位置、当前姿态、当前线速度,并根据下式得到无人机目标状态:t时刻无人机需要到达的下一目标位置以及t时刻无人机需要到达下一位置时的目标线速度和t时刻无人机需要到达下一位置时的目标姿态:
22、;
23、其中,表示t时刻无人机在水平方向的加速度,表示t时刻无人机在垂直方向的加速度,表示t时刻无人机的偏航角度。
24、进一步地,在步骤s25中,具体过程包括以下步骤:
25、s251、从无人机状态向量中获取无人机的当前位置、当前线速度,根据s24的目标状态中获取无人机目标位置和目标线速度,将上述信息本文档来自技高网...
【技术保护点】
1.一种基于深度强化学习和PID控制器的无人机导航方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法,其特征在于:在步骤S1中,所述无人机状态信息,其中,为t时刻无人机当前所在位置的x轴坐标,为t时刻无人机当前所在位置的y轴坐标,为t时刻无人机当前所在位置的z轴坐标,为t时刻无人机的滚转角,为t时刻无人机的俯仰角,为t时刻无人机的偏航角,为t时刻无人机在x轴上的线速度分量,为t时刻无人机在y轴上的线速度分量,为t时刻无人机在z轴上的线速度分量,为t时刻无人机的角速度,为无人机携带的雷达测距仪反馈的障碍物信息,为无人机已执行的动作次数;所述目标为无人机需要到达的位置坐标。
3.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法,其特征在于:在步骤S2中,所述深度强化学习网络包括动作网络、Q值网络、原始经验存储池、经验扩展模块、经验回放池,其依次连接构成;所述PID控制器模块包括位置控制器、姿态控制器。
4.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导
5.根据权利要求4所述的一种基于深度强化学习和PID控制器的无人机导航方法,其特征在于:所述S23具体包括以下步骤:
6.根据权利要求4所述的一种基于深度强化学习和PID控制器的无人机导航方法,其特征在于:所述S24具体包括:从所述无人机状态向量中得到无人机当前位置、当前姿态、当前线速度,并根据下式得到无人机目标状态:t时刻无人机需要到达的下一目标位置以及t时刻无人机需要到达下一位置时的目标线速度和t时刻无人机需要到达下一位置时的目标姿态:
7.根据权利要求4所述的一种基于深度强化学习和PID控制器的无人机导航方法,其特征在于:在步骤S25中,具体过程包括以下步骤:
8.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法,其特征在于:在步骤S3中,所述将原始经验存储池中的原始经验输入经验扩展模块,得到扩展经验,并将扩展经验存储于经验回放池中,具体过程包括以下步骤:
9.根据权利要求1所述的一种基于深度强化学习和PID控制器的无人机导航方法,其特征在于:在步骤S3中,所述利用扩展经验更新深度强化学习网络得到训练后的深度强化学习模型,具体过程包括以下步骤:
...【技术特征摘要】
1.一种基于深度强化学习和pid控制器的无人机导航方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度强化学习和pid控制器的无人机导航方法,其特征在于:在步骤s1中,所述无人机状态信息,其中,为t时刻无人机当前所在位置的x轴坐标,为t时刻无人机当前所在位置的y轴坐标,为t时刻无人机当前所在位置的z轴坐标,为t时刻无人机的滚转角,为t时刻无人机的俯仰角,为t时刻无人机的偏航角,为t时刻无人机在x轴上的线速度分量,为t时刻无人机在y轴上的线速度分量,为t时刻无人机在z轴上的线速度分量,为t时刻无人机的角速度,为无人机携带的雷达测距仪反馈的障碍物信息,为无人机已执行的动作次数;所述目标为无人机需要到达的位置坐标。
3.根据权利要求1所述的一种基于深度强化学习和pid控制器的无人机导航方法,其特征在于:在步骤s2中,所述深度强化学习网络包括动作网络、q值网络、原始经验存储池、经验扩展模块、经验回放池,其依次连接构成;所述pid控制器模块包括位置控制器、姿态控制器。
4.根据权利要求1所述的一种基于深度强化学习和pid控制器的无人机导航方法,其特征在于:在步骤s2中,具体过程包括以下步骤:...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。