基于时序知识图谱的无人机集群的路径规划方法及系统技术方案

技术编号:38766088 阅读:16 留言:0更新日期:2023-09-10 10:39
本发明专利技术涉及一种基于时序知识图谱的无人机集群的路径规划方法及系统,该方法包括:将无人机集群的飞行环境中的每一个状态作为知识图谱中的一个节点,将多个状态之间的关系作为边,形成无人机集群的飞行环境的知识图谱;实时预测可能出现的飞行环境的变化并更新知识图谱;将无人机集群作为智能体,以无人机集群的当前状态和当前状态下选择的动作作为输入,以环境反馈作为输出,环境反馈包括下一个动作以及奖励,以最大化总奖励为优化目标,通过强化学习进行迭代训练,以在知识图谱上寻找最优的飞行路径。本发明专利技术能够充分利用环境信息、实时反馈以及预测结果,实现无人机集群的有效路径规划。有效路径规划。有效路径规划。

【技术实现步骤摘要】
基于时序知识图谱的无人机集群的路径规划方法及系统


[0001]本专利技术涉及无人机集群路径规划
,尤其涉及一种基于时序知识图谱的无人机集群的路径规划方法及系统。

技术介绍

[0002]随着科技的发展,无人机在农业、电力巡检、交通监测等多个领域中得到了广泛应用。在实际使用中,无人机往往需要在多变的环境中自主飞行,并对未来环境进行预测以做出最佳的决策。因此,无人机的路径规划问题成为了无人机相关技术研究的重要课题。
[0003]传统的无人机路径规划方法主要基于启发式搜索算法或者基于单目标或多目标优化的方法。然而,这些方法在面对环境变化和实时性要求时,往往不能得到满意的结果。此外,当无人机数量增加,形成无人机集群时,路径规划问题变得更加复杂,需要更高效和智能的方法来解决。

技术实现思路

[0004](一)要解决的技术问题鉴于现有技术的上述缺点、不足,本专利技术提供一种基于时序知识图谱的无人机集群的路径规划方法及系统,其解决了现有的无人机集群的路径规划方法过于复杂,且无法满足环境变化和实时性要求的技术问题。
[0005](二)技术方案为了达到上述目的,本专利技术采用的主要技术方案包括:第一方面,本专利技术实施例提供一种基于时序知识图谱的无人机集群的路径规划方法,包括以下步骤:将无人机集群的飞行环境中的每一个状态作为知识图谱中的一个节点,将多个状态之间的关系作为边,通过边将各节点进行连接,形成无人机集群的飞行环境的知识图谱;实时预测可能出现的飞行环境的变化并更新知识图谱;将无人机集群作为智能体,以无人机集群的当前状态和当前状态下选择的动作作为输入,以环境反馈作为输出,环境反馈包括下一个动作以及奖励,以最大化总奖励为优化目标,通过强化学习进行迭代训练,以在知识图谱上寻找最优的飞行路径。
[0006]本专利技术实施例提出的基于时序知识图谱的无人机集群的路径规划方法,能够充分利用环境信息、实时反馈以及预测结果,实现无人机集群的有效路径规划。
[0007]可选地,状态包括:无人机的位置、天气条件和飞行限制;动作包括:无人机从一个节点飞向另一个节点的飞行路径;状态之间的关系,包括:节点之间的距离和天气变化。
[0008]可选地,最优的飞行路径为最短的飞行时间和/或最低的能耗的飞行路径。
[0009]可选地,实时预测可能出现的飞行环境的变化并更新知识图谱,包括:将天气条件和飞行限制分别表述为天气条件的时序数据以及飞行限制的时序数
据,通过预测模型预测未来时刻的天气条件,根据天气条件预测飞行限制;根据预测结果更新知识图谱中的各节点和边。
[0010]可选地,根据预测结果更新知识图谱中的各节点和边时,还对应记录每次更新的时间。
[0011]可选地,通过强化学习进行迭代训练的过程中,为每个无人机集群设置Q函数;Q函数为Q(s,a),表示在状态s下执行动作a可以获得的预期奖励;每次迭代结束,按照下式更新Q函数:其中,α是学习率,用于控制新信息与旧信息的比重;γ是折扣因子,用于控制当前奖励和未来奖励的比重;r是奖励,s'和a'是新的状态和新的动作;是在新状态s'下可能的最大Q值。
[0012]可选地,无人机的位置包括无人机的当前位置和无人机的目标位置,状态还包括当前时间;通过强化学习进行迭代训练的过程中,为每个无人机集群设置Q函数;Q函数为,表示在状态s下执行动作a可以获得的预期奖励以及目标网络的网络参数;每次迭代结束,按照下式更新Q函数:其中,θ是目标网络的网络参数,是Q值相对于网络参数θ的梯度。
[0013]可选地,在状态s下选择执行动作a的选择策略为贪心策略或者ε

贪心策略;奖励为基于飞行时间和/或飞行安全因素的函数。
[0014]可选地,通过强化学习进行迭代训练的过程中,还通过工作器分别训练一个策略网络和一个价值网络,其中θ和均为目标网络的网络参数;训练过程中的优化目标为最大化优势函数,且最小化损失函数;每个工作器从其当前状态开始,根据策略网络选择并执行一个动作,观察奖励和新的状态,迭代进行k个步骤或者直到遇到终止状态;具体如下:首先,采用优势函数A(s, a)表示在状态s下采取动作a相对于按照策略行动的优势,并计算优势函数:其中,为TD残差,定义为;其中是在时间t获得的奖励;是价值函数,表示在状态s下,按照网络参数为的价值函数计算的预期获得的总奖励;Γ为折扣因子,用于调整未来奖励的重要性;Λ为超参数,用于调整每个TD残差的权重;T为终止时间;其次,每个工作器更新策略网络和价值网络,包括:使用策略网络的输出概率乘以相应动作的优势函数来计算策略网络的损失,从而
策略网络的损失函数计算如下:其中,为策略网络的损失函数;表示在状态下,按照网络参数为的策略选择动作的概率的对数;为优势函数,表示在状态下采取动作的相对优势;工作器使用反向传播和优化器来更新策略网络的网络参数;同时,使用价值网络的预测总奖励和实际总奖励的差的平方作为损失函数计算价值;从而价值网络的损失函数计算如下:其中,是从状态开始的折扣奖励总和;为在状态下,按照网络参数为的价值函数计算的预期总奖励;为从时间t开始,按照真实的奖励序列计算的折扣奖励总和,即未来奖励的实际值;为价值网络的网络参数;工作器使用反向传播和优化器来更新价值网络的参数;再次,每个工作器在更新完自己的网络参数后,将网络参数同步到全局网络。
[0015]第二方面,本专利技术实施例提供一种计算机系统,包括存储器和处理器;存储器,用于存储计算机程序;处理器,用于当执行计算机程序时,实现如上述任一项的基于时序知识图谱的无人机集群的路径规划方法。
[0016](三)有益效果本专利技术的有益效果是:本专利技术的一种基于时序知识图谱的无人机集群的路径规划方法及系统,基于知识图谱、强化学习以及预测技术,能够实现无人机集群的有效路径规划,包括环境学习、动态规划、以及飞行路径的预测。
附图说明
[0017]图1为本专利技术优选实施例的基于时序知识图谱的无人机集群的路径规划方法的流程图;图2为本专利技术优选实施例的知识图谱的结构示意图。
具体实施方式
[0018]为了更好的解释本专利技术,以便于理解,下面结合附图,通过具体实施方式,对本专利技术作详细描述。
[0019]为了更好的理解上述技术方案,下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0020]本专利技术实施例使用知识图谱作为无人机集群的环境学习和知识表示工具。知识图谱是一种结构化的信息表示方式,能够把环境中的实体以及它们之间的关系以图的形式表达出来。
[0021]在无人机集群路径规划中,本专利技术实施例将飞行环境中的每一个可能的状态(例如位置、天气条件、飞行限制等)看作是知识图谱中的一个节点,而这些状态之间的转变关系(例如由一个地点飞向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时序知识图谱的无人机集群的路径规划方法,其特征在于,包括以下步骤:将无人机集群的飞行环境中的每一个状态作为知识图谱中的一个节点,将多个状态之间的关系作为边,通过边将各节点进行连接,形成无人机集群的飞行环境的知识图谱;实时预测可能出现的飞行环境的变化并更新知识图谱;将无人机集群作为智能体,以无人机集群的当前状态和当前状态下选择的动作作为输入,以环境反馈作为输出,所述环境反馈包括下一个动作以及奖励,以最大化总奖励为优化目标,通过强化学习进行迭代训练,以在知识图谱上寻找最优的飞行路径。2.如权利要求1所述的基于时序知识图谱的无人机集群的路径规划方法,其特征在于,所述状态包括:无人机的位置、天气条件和飞行限制;所述动作包括:无人机从一个节点飞向另一个节点的飞行路径;所述状态之间的关系,包括:节点之间的距离和天气变化。3.如权利要求1所述的基于时序知识图谱的无人机集群的路径规划方法,其特征在于,所述最优的飞行路径为最短的飞行时间和/或最低的能耗的飞行路径。4.如权利要求2所述的基于时序知识图谱的无人机集群的路径规划方法,其特征在于,所述实时预测可能出现的飞行环境的变化并更新知识图谱,包括:将所述天气条件和飞行限制分别表述为天气条件的时序数据以及飞行限制的时序数据,通过预测模型预测未来时刻的天气条件,根据天气条件预测飞行限制;根据预测结果更新知识图谱中的各节点和边。5.如权利要求4所述的基于时序知识图谱的无人机集群的路径规划方法,其特征在于,所述根据预测结果更新知识图谱中的各节点和边时,还对应记录每次更新的时间。6.如权利要求2、4或5中任一项所述的基于时序知识图谱的无人机集群的路径规划方法,其特征在于,所述通过强化学习进行迭代训练的过程中,为每个无人机集群设置Q函数;所述Q函数为Q(s,a),表示在状态s下执行动作a可以获得的预期奖励;每次迭代结束,按照下式更新所述Q函数:其中,α是学习率,用于控制新信息与旧信息的比重;γ是折扣因子,用于控制当前奖励和未来奖励的比重;r是奖励,s'和a'是新的状态和新的动作;是在新状态s'下可能的最大Q值。7.如权利要求6所述的基于时序知识图谱的无人机集群的路径规划方法,其特征在于,所述无人机的位置包括无人机的当前位置和无人机的目标位置,所述状态还包括当前时间;所述通过强化学习进行迭代训练的过程中,为每个无人机集群设置Q函数;所述Q函数为表示在状态s下执行动作a可以获...

【专利技术属性】
技术研发人员:王必良李金滔廖甜汪礼辉汤俊
申请(专利权)人:湖南璟德科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1