当前位置: 首页 > 专利查询>鲁东大学专利>正文

用于智能体路径规划的方法和存储介质技术

技术编号:30412711 阅读:28 留言:0更新日期:2021-10-20 11:48
本发明专利技术公开了一种用于智能体路径规划的方法,包括:步骤S1:建立智能体工作环境地图,并初始化智能体位置;步骤S2:根据目标位置和智能体位置,对智能体的方向状态和探测状态进行离散化,并初始化Q值表;根据目标位置和智能体位置,确定若干记忆节点,智能体以记忆节点为目标导向,并在移动过程中根据探测信息添加其它记忆节点,根据若干记忆节点和其它记忆节点建立记忆池;智能体根据移动过程中获得的回报更新Q值表,直到智能体到达目标位置或者智能体尝试次数超过第一预设阈值;步骤S3:更新记忆池中的记忆节点,得到更新后记忆池;步骤S4:智能体根据更新后记忆池规划路径,到达目标位置。标位置。标位置。

【技术实现步骤摘要】
用于智能体路径规划的方法和存储介质


[0001]本专利技术涉及多智能体路径规划
,尤其涉及一种用于智能体路径规划的方法和存储介质。

技术介绍

[0002]路径规划问题一直是机器人研究领域的热点,随着强化学习在各个领域的应用,强化学习与机器人路径规划问题也越来越紧密地联系起来。
[0003]强化学习解决的是序贯决策问题,在与环境交互的过程中会根据回报评估动作的好坏,提高使回报增加的动作概率,减小使回报减少的概率。强化学习是通过对环境不断地探索,在探索的过程中学习如何使下一步动作回报最大,不断地反复探索和迭代,使回报最大的动作序贯策略即为最优路径。
[0004]在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:传统强化学习和各种改进方法大多针对静态环境,对于动态的环境和复杂凹形障碍物无法取得理想结果,在动态环境中,机器人周围环境经常发生变化,因此无法利用传统的栅格表格法存储状态,传统强化学习在一个环境收敛后无法直接应用于另一个环境,仍然需要多次迭代尝试,泛化能力较差。

技术实现思路

>[0005]本公开本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于智能体路径规划的方法,其特征在于,包括:步骤S1:建立智能体工作环境地图,并初始化智能体位置;步骤S2:根据目标位置和所述智能体位置,对智能体的方向状态和探测状态进行离散化,并初始化Q值表;根据目标位置和智能体位置,确定若干记忆节点,所述智能体以所述记忆节点为目标导向,并在移动过程中根据探测信息添加其它记忆节点,根据所述若干记忆节点和所述其它记忆节点建立记忆池;所述智能体根据移动过程中获得的回报更新所述Q值表,直到所述智能体到达所述目标位置或者所述智能体尝试次数超过第一预设阈值;步骤S3:根据离散后的方向状态、离散后的探测状态、所述Q值表和所述智能体的移动距离,更新所述记忆池中的记忆节点,得到更新后记忆池;步骤S4:所述智能体根据所述更新后记忆池规划路径,到达所述目标位置。2.根据权利要求1所述的方法,其特征在于,所述步骤S2进一步包括:步骤S21:根据所述目标位置和所述智能体位置,得到智能体与所述目标位置之间的夹角后,将所述目标位置和所述智能体位置的相对方向离散化,得到离散化的方向状态;步骤S22:所述智能体探测到障碍物时,获取所述障碍物的类型和所述智能体与所述障碍物的距离,得到离散化的探测状态。3.根据权利要求1或2所述的方法,其特征在于,通过人工势场初始化Q值表,对于动态障碍物设定斥力势场。4.根据权利要求3所述的方法,其特征在于,通过以下公式计算得到斥力势场,斥力势场函数G

,其中,ξ为斥力折扣因子,ξ∈[0,1],d
now
为所述智能体在当前状态距离所述目标位置的欧氏距离,d0为动态障碍物斥力的影响范围,超出所述影响范围所述智能体不受斥力影响。5.根据权利要求4所述的方法,其特征在于,所述步骤S2进一步包括:步骤S23:通过以下公式初始化Q值表,其中,Q(s,a)为所述智能体在状态s时选择动作a的动作值函数,r为所述智能体在状态s时选择动作a移动到下一状态的立即回报,G为...

【专利技术属性】
技术研发人员:杨洪勇宁新顺刘飞范之琳韩艺琳刘莉王丽丽张顺宁
申请(专利权)人:鲁东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1