【技术实现步骤摘要】
一种基于深度强化学习的多智能体协同导航方法
[0001]本专利技术属于多智能体协同导航
,具体涉及一种基于深度强化学习的多智能体协同导航方法。
技术介绍
[0002]多智能体协同导航是多智能体系统完成协同任务的重要基础,在近些年受到了广泛的关注。它要求智能体具有在复杂环境中互相协调执行任务的能力,并且在任务过程中避免碰撞以保证自身的安全。相比于单智能体,实现协同导航的多智能体系统能更高效地完成任务,提高系统的容错能力和对环境的适应能力。多智能体协同导航具有广泛的应用场景,一些应用包括多机器人编队控制、多机器人目标搜索和自主移动服务机器人等。深度强化学习算法继承了深度学习算法在感知和特征提取方面的优越性,通过将智能体的状态信息映射到特征空间来实现端到端的学习,而无需人工设计特征。至于训练所需要的大量数据则是通过与模拟环境的交互以低廉的成本生成,如此轻松解决了样本问题。这些特点使得深度强化学习成为了多智能体和人工智能领域最火热的研究和应用方向之一。
[0003]现有的专利技术,比如“一种基于深度强化学习的多智能体导航算法”,授权公布号为“CN113218400B”。该方法将A*算法融合到PPO算法中,前者是一种路径规划方法,后者是一种深度强化学习方法。该方法利用设计的奖惩函数实现两种算法的深度融合,智能体通过输入传感器原始图像数据,决策规划出最佳行动路径,到达目标点。由于该方法需要将扫描仪得到的图像信息进行特征提取,通过卷积神经网络训练得到低维环境特征,而图像处理的过程比较耗时,也对设备的性能提出了比较高的
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的多智能体协同导航方法,其特征在于,包括以下步骤;以一个运动设备为一个智能体或被一个智能体控制,各智能体执行以下步骤;步骤1,观察全局状态,所述全局状态指当前运动设备探测到的所有目标以及其他智能体的相对位置坐标;构建目标选择策略网络和碰撞避免策略网络;步骤2,根据所述目标选择策略网络,选择一个目标,所述目标指当前运动设备需要导航到的目标地点;步骤3,观察局部状态,所述局部状态指当前运动设备探测到的与周围障碍物之间的距离;步骤4,判断前方是否存在障碍物,若否,则当前运动设备向选择的所述目标移动一步,并返回步骤1;若是,则根据所述碰撞避免策略网络得到一个角度,当前运动设备转向该角度并向前移动一步,并返回步骤1;所述向前,指当前运动设备转向的角度方向。2.根据权利要求1所述的一种基于深度强化学习的多智能体协同导航方法,其特征在于,所述步骤1中碰撞避免策略网络具体包括:(1)对碰撞避免策略网络进行训练与测试,评估模型的性能指标;(2)在碰撞避免策略网络中添加R
‑
Drop机制模块;当在智能体感知范围内的方向上观察到障碍物时,由该网络输出一个转向角度来指导智能体进行避障;(3)在步骤(2)的基础上,在碰撞避免策略网络中添加自注意力机制模块,所述自注意力机制模块通过预处理其他智能体的状态序列信息,用于实现对不同重要程度环境信息的筛选,从而提高模型的协同导航能力;(4)在步骤(3)的基础上,将碰撞避免策略网络训练过程中用到的经验回放机制模块替换为优先经验回放机制模块,得到改进的网络模型;(5)对改进的网络模型进行导航的训练与测试,评估模型的性能指标;(6)在训练与测试后的改进的网络模型进行导航。3.根据权利要求2所述的一种基于深度强化学习的多智能体协同导航方法,其特征在于,所述步骤(1)中,对网络模型和改进算法网络模型进行训练与测试的过程,包括下列步骤:(1)在无障碍环境中训练算法网络模型的目标选择策略;将每回合观测到的状态信息存入经验回放机制模块的经验回放池中,并从经验回放池中抽取样本输入到目标选择策略网络中,然后将网络的预测值与真实值输入到损失函数中,求取损失值,其表达式为并根据随机梯度下降法对神经网络参数进行更新,其中,表示求期望,i表示第i个智能体,t表示第t个时间步,表示实际的奖励值,G
ts
表示对应的目标选择策略网络输出的动作价值函数值;(2)重复步骤(1)直到episode达到10000轮后结束,此时目标选择策略网络已经收敛;(3)以训练好的目标选择策略为热启动,在障碍物未知且随机设置的环境中训练碰撞避免策略;将每回合观测到的状态信息存入经验回放池中,并从经验回放池中抽取样本输入到碰撞避免策略网络中,然后将网络的预测值与真实值输入到损失函数中,求取损失值,并根据随机梯度下降法对神经网络参数进行更新;
(4)重复步骤(3)直到episode达到10000轮后结束,此时碰撞避免策略网络已经收敛;(5)在障碍物未知且随机设置的环境中测试算法模型的性能,生成1000个测试任务,以成功率和归一化平均最大导航时间作为性能指标进行评估。4.根据权利要求2所述的一种基于深度强化学习的多智能体协同导航方法,其特征在于,所述步骤(5)中,对网络模型和改进算法网络模型进行训练与测试的过程,包括下列步骤:(1)在无障碍环境中训练算法网络模型的目标选择策略;将每回合观测到的状态信息存入经验回放机制模块的经验回放池中,并从经验回放池中抽取样本输入到目标选择策略网络中,然后将网络的预测值与真实值输入到损失函数中,求取损失值,其表达式为并根据随机梯度下降法对神经网络参数进行更新,其中,表示求期望,i表示第i个智能体,t表示第t个时间步,表示实际的奖励值,G
ts
表示对应的目标选择策略网络输出的动作价值函数值;(2)重复步骤(1)直到episode达到10000轮后结束,此时目标选择策略网络已经收敛;(3)以训练好的目标选择策略为热启动,在障碍物未知且随机设置的环境中训练碰撞避免策略;将每回合观测到的状态信息存入经验回放池中,并从经验回放池中抽取样本输入到碰撞避免策略网络中,然后将网络的预测值与真实值输入到损失函数中,求取损失值,并根据随机梯度下降法对神经网络参数进行更新...
【专利技术属性】
技术研发人员:袁济民,张文博,姜超颖,李林,龙璐岚,王海舰,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。