本发明专利技术提供了一种基于强化学习的多智能体自主导航方法,属于多智能体强化学习领域。本发明专利技术通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量,并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入,从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作,使得智能体的策略更加鲁棒。
【技术实现步骤摘要】
一种基于强化学习的多智能体自主导航方法
本专利技术属于多智能体强化学习领域,具体涉及一种对MADDPG算法改进的多智能体自主导航方法。
技术介绍
智能体自主导航旨在让智能体像人一样具备安全高效的从起点移动到目标点、且不和其他障碍物发生碰撞的能力。该技术是移动机器人实现更多高级功能的基础,是人工智能领域研究的重点之一。传统的智能体导航算法主要基于采样路径搜索方法,通过在已知的地图空间进行路径规划完成导航。随着机器人应用场景的不断扩展,传统的智能体导航技术不能适应动态变化的场景,也无法在多智能体场景发挥作用,因此传统方法已经不能满足实际需要。近年来人工智能技术快速发展,适用于序列决策问题的强化学习技术也在游戏AI和机器人控制领域取得瞩目成就。例如香港城市大学TingxiangFan等人,将多智能体系统中的智能体导航问题建模为深度强化学习模型,结合经典控制原理提出了去中心化的完全分布式多智能体避障导航算法,已经能够在人群密集的环境中实现良好的避障导航。香港科技大学的LeiTai等人使用DDPG算法训练的智能体也已经可以在未知的地图中实现高效自主导航,并已经在实际场景实验成功;GoogleBrain的AleksandraFaus等人提出了融合强化学习和概率路线图法的层次结构导航算法PRM-RL,该算法首先基于概率路线图方法进行静态地图路径规划,在规划出来的路径上采样若干个任务点,任务点和任务点之间由强化学习训练的避障导航算法驱动智能体运动,从而能够在地图范围比较大的场景比较出色的完成自主导航;类似的GoogleAI和新墨西哥大学合作的RL-RRT算法也采用相同的思路,快速扩展随机树方法负责规划路径,强化学习算法负责避障。对于多智能体系统,可以将其他智能体都当做动态环境进行考虑,即对于当前智能体而言其他智能体都是会移动的障碍物,但是随着深度强化学习算法训练过程的进行,不同智能体的策略也在不断发生变化,会造成训练环境的不稳定,算法收敛速度慢甚至不收敛。近年来不少研究者尝试将博弈论领域的知识引入深度强化学习框架,比如OpenAI和加州大学伯克利分校合作提出的分散执行、集中训练的方法,在对智能体的状态进行评估的时候将矩阵博弈的状态空间用所有的智能体的观测以及状态代替;从而将不完全信息的博弈转换为了完全信息的博弈,降低了训练过程的不稳定性,在多智能体的合作或者竞争场景中都取得了不错的表现;同时英国牛津大学的团队也基于类似的思路提出了COMA算法,在星际争霸II的小规模战场环境也取得了很好的效果;ShihuiLid等人受对抗学习中在学习样本中增加噪声从而提高神经网络鲁棒性的启发,联合卡耐基梅隆大学、加州大学伯克利分校和清华大学合作,基于博弈论中的极大极小值原理将MADDPG进行改进提出了鲁棒性更强的M3DDPG,在多智能体对抗场景取得喜人成绩;Iqbal等人基于MADDPG算法引入注意力机制提出了MAAC算法,该算法首先通过注意力机制计算状态空间特征的相关性权重,之后使用该权重对状态特征进行加权,从而对状态特征进行了筛选,相较于MADDPG算法达到了更好的效果;清华大学的JunFeng联合阿里巴巴的HengLi等人,提出MA-RDPG算法,该算法通过一个LSTM编码的消息模块在多个智能体之间传递,从而改善了多智能体之间的协作,该算法成功应用于淘宝的商品排序推荐场景。传统基于路径规划的导航技术不能适应环境的变化,不能很好地针对动态变化的环境做出合理的响应。越来越复杂的机器人应用场景,甚至多智能体系统等都对动态场景中智能体实现自主导航提出更多需求。近年来人工神经网络技术快速发展,以深度强化学习为代表的一系列方法在机器人方面取得显著进步,同时也为智能体自主导航问题提供了新思路。
技术实现思路
为了解决现有技术中的问题,本专利技术围绕智能体自主导航问题,利用深度强化学习技术提出一种改进的多智能体自主导航方法。本专利技术的技术方案为:一种基于强化学习的多智能体自主导航方法,该方法包括以下步骤:步骤S1:初始化一个经验池,用以存储算法训练过程中产生的交互经验。所述的交互经验主要包括(s,A,r,s'),其中s表示当前时间步环境的状态,包含所有智能体通过传感器采集到的环境的观测;A表示智能体的联合动作;r表示智能体从环境中得到的及时奖励;s'表示下一时间步环境的状态。步骤S2:针对每一个智能体初始化四个神经网络,所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络。步骤S3:将所有智能体从环境中采集到的信息传递给长短时间记忆网络进行编码,记编码后的特征向量为h,表示系统的隐状态。步骤S4:将步骤S3中生成的h和智能体i(i表示第i个智能体,其中0<i≤n,n表示系统中智能体的数目)从环境中采集的信息oi传递给智能体i的策略网络,智能体i的策略网络输出智能体i的动作ai。步骤S5:智能体i执行步骤S4中策略网络输出的动作ai并和环境完成交互,并从环境中采集及时奖励以及下一时刻的观测所述及时奖励的计算方法如下:其中,rg表示智能体趋近目标点的距离奖励,其计算方式如公式(2)所示;rc表示智能体发生碰撞时的惩罚值,其计算方式如公式(3)所示:式(2)中,表示第i个智能体在时间步t时的位置;gi表示第i个智能体的目标点的位置;R表示智能体的半径;ωg和rarrival都是常数,分别表示智能体趋近目标点时的奖励系数和到达目标点时的奖励。式(3)中,Bk表示环境中第k个障碍物的位置,rcollision表示智能体发生碰撞时的惩罚系数。步骤S6:将智能体与环境交互产生的经验存进经验池中。步骤S7:针对每一个智能体i,重复步骤S4-S6。步骤S8:从经验池中随机采集一个批次的经验。步骤S9:根据公式(4)计算动作评价网络的损失Loss:其中,表示系统隐状态为ht-1、所有智能体对环境的观测为ot时求误差的期望;ht-1表示t-1时刻系统的隐状态特征向量;ot表示t时刻系统中所有智能体的观测;ai表示智能体i的动作向量;yi表示智能体i的动作评价网络的目标值;表示智能体i在时刻t时得到的及时奖励;γ是奖励折扣因子,γ∈[0,1],用以计算累计回报;表示未来的奖励对现在的影响,当γ=0时,完全不考虑未来可能得到的奖励,当γ≠0时按照一定的折扣得到未来可能得到的奖励;表示时刻t+1时智能体i对环境的观测;表示目标动作评价网络,πi′表示目标策略网络。步骤S10:根据公式(6)计算策略网络的梯度:式(6)中,θ表示神经网络的参数,表示对参数求梯度;表示策略梯度函数;表示对动作a求梯度;πi表示智能体i的策略网络,表示智能体i需要采取的动作。步骤S11:根据公式(7)的方式分别更新策略网络和动作评价网络的参数:θi′←τθi+(1-τ)θi′(7)式(7)中,θ表示神经网络的参数;θi′表示更新后的动作评价网络的参数;τ∈[0,1本文档来自技高网...
【技术保护点】
1.一种基于强化学习的多智能体自主导航方法,其特征在于,该方法包括以下步骤:/n步骤S1:初始化一个经验池,用以存储算法训练过程中产生的交互经验;所述的交互经验包括(s,A,r,s'),其中s表示当前时间步环境的状态,包含所有智能体通过传感器采集到的环境的观测;A表示智能体的联合动作;r表示智能体从环境中得到的及时奖励;s'表示下一时间步环境的状态;/n步骤S2:针对每一个智能体初始化四个神经网络,所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络;/n步骤S3:将所有智能体从环境中采集到的信息传递给长短时间记忆网络进行编码,记编码后的特征向量为h,表示系统的隐状态;/n步骤S4:将步骤S3中生成的h和智能体i从环境中采集的信息o
【技术特征摘要】
1.一种基于强化学习的多智能体自主导航方法,其特征在于,该方法包括以下步骤:
步骤S1:初始化一个经验池,用以存储算法训练过程中产生的交互经验;所述的交互经验包括(s,A,r,s'),其中s表示当前时间步环境的状态,包含所有智能体通过传感器采集到的环境的观测;A表示智能体的联合动作;r表示智能体从环境中得到的及时奖励;s'表示下一时间步环境的状态;
步骤S2:针对每一个智能体初始化四个神经网络,所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络;
步骤S3:将所有智能体从环境中采集到的信息传递给长短时间记忆网络进行编码,记编码后的特征向量为h,表示系统的隐状态;
步骤S4:将步骤S3中生成的h和智能体i从环境中采集的信息oi传递给智能体i的策略网络,智能体i的策略网络输出智能体i的动作ai;其中,0<i≤n,n表示系统中智能体的数目;
步骤S5:智能体i执行步骤S4中策略网络输出的动作ai并和环境完成交互,并从环境中采集及时奖励rit以及下一时刻的观测
所述及时奖励的计算方法如下:
其中,rg表示智能体趋近目标点的距离奖励,其计算方式如公式(2)所示;rc表示智能体发生碰撞时的惩罚值,其计算方式如公式(3)所示:
式(2)中,表示第i个智能体在时间步t时的位置;gi表示第i个智能体的目标点的位置;R表示智能体的半径;ωg和rarrival都是常数,分别表示智能体趋近目标点时的奖励系数和到达目标点时的...
【专利技术属性】
技术研发人员:刘婵娟,马原野,张强,魏小鹏,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。