System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 网络训练方法、无人机避障方法及装置制造方法及图纸_技高网

网络训练方法、无人机避障方法及装置制造方法及图纸

技术编号:41382618 阅读:3 留言:0更新日期:2024-05-20 10:23
本发明专利技术提供一种网络训练方法、无人机避障方法及装置,涉及无人机控制技术领域,该方法包括:以样本无人机的目标时刻环境态势、下一时刻环境态势、目标时刻最优航向角以及目标时刻奖励值构建的目标时刻的样本数据更新经验回放池,在更新后的经验回放池中样本数据的数量达到预设数量时,从中抽取出多个待处理样本数据进行多步预测得到多个未来时刻的最优航向角预测值、环境态势预测值和奖励预测值;根据各待处理样本数据中的环境态势、最优航向角、奖励值,以及环境态势预测值、奖励预测值和最优航向角预测值,对目标策略网络训练,获取优化的策略网络。本发明专利技术实现有效提高无人机避障中的学习效率和样本利用率。

【技术实现步骤摘要】

本专利技术涉及无人机控制,尤其涉及一种网络训练方法、无人机避障方法及装置


技术介绍

1、无人机避障问题可以描述为无人机在一个存在障碍物的空间中导航的任务。任务通常遵循一些优化标准,如工作成本最小、飞行距离最短、飞行时间最短等。常见的传统避障方法包括:动态规划算法、人工势场法、基于采样的方法以及基于图论的方法,但这些方法却需要根据不同的情况建立不同的模型。然而在实际的无人机飞行环境中,工作环境复杂且不可预测,往往需要无人机在未知环境中进行探测并实时决策。

2、随着人工智能技术的进步,强化学习在游戏、机器人、互联网等领域的应用日益广泛,引起了广泛关注。无模型强化学习是一种常用的解决未知环境决策的方法,已经广泛应用于无人机的避障问题中。但是由于无人机与环境的相互交互作用有限,导致无模型强化学习的样本利用率低和自主学习效率低,进而导致无人机避障性能较差。


技术实现思路

1、本专利技术提供一种网络训练方法、无人机避障方法及装置,用以解决现有技术中无人机与环境的相互交互作用有限,导致无模型强化学习的样本利用率低和自主学习效率低,进而导致无人机避障性能较差的缺陷,实现提高无人机避障中的自主学习效率和样本利用率,以提高无人机避障性能。

2、本专利技术提供一种网络训练方法,包括:

3、根据样本无人机的目标时刻环境态势、目标时刻最优航向角、下一时刻环境态势,以及目标时刻奖励值,构建目标时刻的样本数据;

4、将所述目标时刻的样本数据更新至经验回放池,在更新后的经验回放池中的样本数据的数量达到预设数量的情况下,从所述更新后的经验回放池中抽取出目标预测区间内多个不同时刻的待处理样本数据;

5、将各所述待处理样本数据中的环境态势输入至目标策略网络,得到多个不同未来时刻的最优航向角预测值,并将各所述待处理样本数据中的环境态势,以及所述多个不同未来时刻的最优航向角预测值输入至目标预测网络进行多步预测,得到多个不同未来时刻的环境态势预测值和奖励预测值;

6、根据各所述待处理样本数据中的环境态势、最优航向角和奖励值,以及所述环境态势预测值、所述奖励预测值和所述最优航向角预测值,对所述目标策略网络进行强化学习训练,并根据训练结果,获取优化的策略网络;

7、其中,所述优化的策略网络用于基于当前无人机的当前时刻环境态势预测所述当前无人机的当前时刻最优航向角,以供所述当前无人机根据所述当前时刻最优航向角执行避障任务。

8、根据本专利技术提供的一种网络训练方法,所述目标时刻环境态势和所述目标时刻最优航向角是基于如下步骤获取的:

9、根据所述样本无人机的目标时刻位置、半径和目的地位置,障碍物的目标时刻位置、目标时刻速度和半径,以及所述样本无人机与所述障碍物之间的目标时刻距离,确定所述目标时刻环境态势;

10、将所述目标时刻环境态势输入至所述目标策略网络,得到所述目标时刻最优航向角。

11、根据本专利技术提供的一种网络训练方法,所述下一时刻环境态势是基于如下步骤获取的:

12、根据无人机动力学约束模型、运动学约束和扰动流场法,计算得到所述样本无人机的下一时刻位置;

13、根据所述样本无人机的下一时刻位置、半径和目的地位置,障碍物的下一时刻位置、下一时刻速度和半径,以及所述样本无人机与所述障碍物之间的下一时刻距离,确定所述下一时刻环境态势。

14、根据本专利技术提供的一种网络训练方法,所述目标时刻奖励值是基于如下步骤获取的:

15、在所述样本无人机与障碍物之间的目标时刻距离小于第一距离值的情况下,根据所述样本无人机与所述障碍物之间的目标时刻距离、所述样本无人机的半径、所述障碍物的半径,以及第一奖励值,确定所述目标时刻奖励值;

16、在所述样本无人机与所述障碍物之间的目标时刻距离大于或等于所述第一距离值,且所述样本无人机与目的地位置之间的目标时刻距离小于第二距离值的情况下,根据所述样本无人机与所述目的地位置之间的目标时刻距离、所述样本无人机的起点位置与所述目的地位置之间的距离,以及第二奖励值和第三奖励值,确定所述目标时刻奖励值;

17、在所述样本无人机与所述障碍物之间的目标时刻距离大于或等于所述第一距离值,且所述样本无人机与所述目的地位置之间的目标时刻距离大于或等于所述第二距离值的情况下,根据所述样本无人机与所述目的地位置之间的目标时刻距离、所述样本无人机的起点位置与所述目的地位置之间的距离,以及所述第三奖励值,确定所述目标时刻奖励值;

18、其中,所述第一奖励值为常值奖励值;所述第二奖励值为用于限制所述样本无人机远离所述障碍物的威胁奖励;所述第三奖励值为任务完成对应的附加奖励值。

19、根据本专利技术提供的一种网络训练方法,所述第二奖励值是基于如下步骤确定的:

20、在所述样本无人机与所述障碍物之间的目标时刻距离大于或等于所述第一距离值,且小于第三距离值的情况下,基于所述样本无人机与所述障碍物之间的目标时刻距离、所述样本无人机的半径、所述障碍物的半径、预设威胁半径和第四奖励值,确定所述第二奖励值;

21、在所述样本无人机与所述障碍物之间的目标时刻距离小于所述第一距离值,或者大于或等于所述第三距离值的情况下,基于预设常数值,确定所述第二奖励值。

22、根据本专利技术提供的一种网络训练方法,所述将各所述待处理样本数据中的环境态势,以及所述多个不同未来时刻的最优航向角预测值输入至目标预测网络进行多步预测,得到多个不同未来时刻的环境态势预测值和奖励预测值,包括:

23、将各所述待处理样本数据中的环境态势和所述最优航向角预测值输入至所述目标预测网络的奖励函数网络,以及将各所述待处理样本数据中的环境态势和所述最优航向角预测值输入至所述目标预测网络的态势转移函数网络,进行多步预测,得到所述奖励函数网络输出的所述奖励预测值和所述态势转移函数网络输出所述环境态势预测值。

24、根据本专利技术提供的一种网络训练方法,所述根据各所述待处理样本数据中的环境态势、最优航向角和奖励值,以及所述环境态势预测值、所述奖励预测值和所述最优航向角预测值,对所述目标策略网络进行强化学习训练,包括:

25、根据各所述待处理样本数据中的最优航向角,以及所述最优航向角预测值、所述环境态势预测值和所述奖励预测值,获取值函数代价函数;

26、根据所述最优航向角预测值和所述环境态势预测值,获取策略代价函数;

27、根据各所述待处理样本数据中的环境态势和所述环境态势预测值,获取态势转移代价函数;

28、根据各所述待处理样本数据中的奖励值和所述奖励预测值,获取奖励代价函数;

29、根据所述值函数代价函数、所述策略代价函数、所述态势转移代价函数以及所述奖励代价函数,对所述目标策略网络进行强化学习。

30、本专利技术还提供一种无人机避障方法,包括:

31、获取当前无人机的当前时刻环境态势;本文档来自技高网...

【技术保护点】

1.一种网络训练方法,其特征在于,包括:

2.根据权利要求1所述的网络训练方法,其特征在于,所述目标时刻环境态势和所述目标时刻最优航向角是基于如下步骤获取的:

3.根据权利要求1所述的网络训练方法,其特征在于,所述下一时刻环境态势是基于如下步骤获取的:

4.根据权利要求1-3任一项所述的网络训练方法,其特征在于,所述目标时刻奖励值是基于如下步骤获取的:

5.根据权利要求4所述的网络训练方法,其特征在于,所述第二奖励值是基于如下步骤确定的:

6.根据权利要求1-3任一项所述的网络训练方法,其特征在于,所述将各所述待处理样本数据中的环境态势,以及所述多个不同未来时刻的最优航向角预测值输入至目标预测网络进行多步预测,得到多个不同未来时刻的环境态势预测值和奖励预测值,包括:

7.根据权利要求1-3任一项所述的网络训练方法,其特征在于,所述根据各所述待处理样本数据中的环境态势、最优航向角和奖励值,以及所述环境态势预测值、所述奖励预测值和所述最优航向角预测值,对所述目标策略网络进行强化学习训练,包括:

8.一种无人机避障方法,其特征在于,包括:

9.一种网络训练装置,其特征在于,包括:

10.一种无人机避障装置,其特征在于,包括:

...

【技术特征摘要】

1.一种网络训练方法,其特征在于,包括:

2.根据权利要求1所述的网络训练方法,其特征在于,所述目标时刻环境态势和所述目标时刻最优航向角是基于如下步骤获取的:

3.根据权利要求1所述的网络训练方法,其特征在于,所述下一时刻环境态势是基于如下步骤获取的:

4.根据权利要求1-3任一项所述的网络训练方法,其特征在于,所述目标时刻奖励值是基于如下步骤获取的:

5.根据权利要求4所述的网络训练方法,其特征在于,所述第二奖励值是基于如下步骤确定的:

6.根据权利要求1-3任一项所述的网络训练方法,其特征在于,所述将各...

【专利技术属性】
技术研发人员:刘克新吴其臻吕金虎陈磊朱国梁
申请(专利权)人:中国科学院数学与系统科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1