一种基于强化学习的多智能体自主导航方法技术

技术编号:26846523 阅读:34 留言:0更新日期:2020-12-25 13:09
本发明专利技术提供了一种基于强化学习的多智能体自主导航方法,属于多智能体强化学习领域。本发明专利技术通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量,并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入,从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作,使得智能体的策略更加鲁棒。

【技术实现步骤摘要】
一种基于强化学习的多智能体自主导航方法
本专利技术属于多智能体强化学习领域,具体涉及一种对MADDPG算法改进的多智能体自主导航方法。
技术介绍
智能体自主导航旨在让智能体像人一样具备安全高效的从起点移动到目标点、且不和其他障碍物发生碰撞的能力。该技术是移动机器人实现更多高级功能的基础,是人工智能领域研究的重点之一。传统的智能体导航算法主要基于采样路径搜索方法,通过在已知的地图空间进行路径规划完成导航。随着机器人应用场景的不断扩展,传统的智能体导航技术不能适应动态变化的场景,也无法在多智能体场景发挥作用,因此传统方法已经不能满足实际需要。近年来人工智能技术快速发展,适用于序列决策问题的强化学习技术也在游戏AI和机器人控制领域取得瞩目成就。例如香港城市大学TingxiangFan等人,将多智能体系统中的智能体导航问题建模为深度强化学习模型,结合经典控制原理提出了去中心化的完全分布式多智能体避障导航算法,已经能够在人群密集的环境中实现良好的避障导航。香港科技大学的LeiTai等人使用DDPG算法训练的智能体也已经可以在未知的地图中实现高效自本文档来自技高网...

【技术保护点】
1.一种基于强化学习的多智能体自主导航方法,其特征在于,该方法包括以下步骤:/n步骤S1:初始化一个经验池,用以存储算法训练过程中产生的交互经验;所述的交互经验包括(s,A,r,s'),其中s表示当前时间步环境的状态,包含所有智能体通过传感器采集到的环境的观测;A表示智能体的联合动作;r表示智能体从环境中得到的及时奖励;s'表示下一时间步环境的状态;/n步骤S2:针对每一个智能体初始化四个神经网络,所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络;/n步骤S3:将所有智能体从环境中采集到的信息传递给长短时间记忆网络进行编码,记编码后的特征向量为h,表示系统的隐状态;/n...

【技术特征摘要】
1.一种基于强化学习的多智能体自主导航方法,其特征在于,该方法包括以下步骤:
步骤S1:初始化一个经验池,用以存储算法训练过程中产生的交互经验;所述的交互经验包括(s,A,r,s'),其中s表示当前时间步环境的状态,包含所有智能体通过传感器采集到的环境的观测;A表示智能体的联合动作;r表示智能体从环境中得到的及时奖励;s'表示下一时间步环境的状态;
步骤S2:针对每一个智能体初始化四个神经网络,所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络;
步骤S3:将所有智能体从环境中采集到的信息传递给长短时间记忆网络进行编码,记编码后的特征向量为h,表示系统的隐状态;
步骤S4:将步骤S3中生成的h和智能体i从环境中采集的信息oi传递给智能体i的策略网络,智能体i的策略网络输出智能体i的动作ai;其中,0<i≤n,n表示系统中智能体的数目;
步骤S5:智能体i执行步骤S4中策略网络输出的动作ai并和环境完成交互,并从环境中采集及时奖励rit以及下一时刻的观测
所述及时奖励的计算方法如下:



其中,rg表示智能体趋近目标点的距离奖励,其计算方式如公式(2)所示;rc表示智能体发生碰撞时的惩罚值,其计算方式如公式(3)所示:






式(2)中,表示第i个智能体在时间步t时的位置;gi表示第i个智能体的目标点的位置;R表示智能体的半径;ωg和rarrival都是常数,分别表示智能体趋近目标点时的奖励系数和到达目标点时的...

【专利技术属性】
技术研发人员:刘婵娟马原野张强魏小鹏
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1