System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于双网络的多智能体强化学习导航描述方法技术_技高网
当前位置: 首页 > 专利查询>中北大学专利>正文

一种基于双网络的多智能体强化学习导航描述方法技术

技术编号:41301454 阅读:5 留言:0更新日期:2024-05-13 14:48
本发明专利技术公开了一种基于双网络的多智能体强化学习导航描述方法,属于智能控制技术领域。针对如何提高智能体探索能力和自主性的问题和解决基于值函数的强化学习算法值估计不准确的问题,通过双Actor网络增强智能体探索能力,再通过双Critic网络将两个Q值线性组合使Q值更接近真实值,有效缓解了值估计不准确的问题,使算法更加稳定和健壮,显著提高了导航的成功率。

【技术实现步骤摘要】

本专利技术属于智能控制,具体涉及一种基于双网络的多智能体强化学习导航描述方法


技术介绍

1、智能体在传统的路径规划算法需要先验知识和人工标记轨迹才能实现避障、路径规划等任务,但是在未知复杂的环境中,这就导致智能体不能实时迅速制定一条路径,即智能体无法学习到独立完成路径规划的能力。因此,如何提高智能体探索能力和自主性是一个意义重大的课题。随着多智能体强化学习的发展,多智能体导航在物流存储、智能驾驶等导航领域的应用越来越多。使用强化学习解决路径规划问题,相比于其他算法,优势在于不需要对环境进行建模,而且具有一定的自适应性和自学习能力,能够应对智能体运动存在不确定性的情况,并且可以在任意位置找到到达目标的路径。在应用时,学习到的critic网络的质量对强化学习智能体的良好性能至关重要。如何以良好的方式估计值函数仍然是强化学习中的一个重要问题,并且在深度q网络(dqn)中得到了广泛的研究。

2、为了更好的估计值函数,有人采用集合方案下的最小q值估计来控制dqn中的值估计偏差,有人利用q网络集合的平均值来减小方差。除了对q值进行线性组合来解决问题的方法外,还探索了许多有效且有前景的方法,包括估计加权、softmax算子等。但很少有人研究双actor网络在价值修正中的作用和好处,这是我们工作的重点。


技术实现思路

1、针对如何提高智能体探索能力和自主性的问题和解决基于值函数的强化学习算法值估计不准确的问题,本专利技术提供了一种基于双网络的多智能体强化学习导航描述方法。

>2、为了达到上述目的,本专利技术采用了下列技术方案:

3、一种基于双网络的多智能体强化学习导航描述方法,包括以下步骤:

4、步骤l:初始化智能体和地标的导航环境,得到环境观测信息作为观测值o;其中包括在固定范围内随机设置智能体位置,初始化动作为0,环境观测信息包括智能体的坐标、速度信息、目标位置和距离其它智能体的距离。

5、步骤2:将观测到的信息输入到双网络中的双actor网络中得到动作,选取q值大的动作a;如图1所示,具体步骤为:

6、步骤2.l:将观测到的信息输入到actor1和actor2网络,得到智能体动作a1和a2;

7、步骤2.2:将a1和a2输入critic1和critic2网络,得到q值q1和q2;

8、步骤2.3:比较q1和q2,选取q值大的动作a。

9、步骤3:将观测值o和动作a输入导航环境中得到奖励r和下一观测值o’;

10、步骤4:将观测值o、动作a、奖励r、下一观测值o’作为一组经验,保存到经验池,循环批次经验;当经验池中存储量大于等于批次量,从经验池中抽取批次经验;

11、步骤5:将批次经验的下一观测值o’输入双actor网络得到下一动作a1′和a2′,将下一动作通过critic1和critic2网络筛选,筛选出值较大的动作;

12、步骤6:将下一观测值o’和下一动作输入双网络中的双critic_target网络得到q_next值,将观测值o和动作a输入双网络中的双critic网络得到q值;如图2所示,具体步骤为:

13、步骤6.l:将经过双actor网络得到的下一动作a1,a2和下一观测值o’分别输入critic1_target和critic2_target得到q值q1、q2、q3和q4;

14、步骤6.2:q1、q2、q3和q4由公式(1)进行线性组合得到q_next;

15、q_next=vmin{q1,q2}+(1-v)max{q3,q4} (1)

16、其中v∈[0,1);

17、步骤6.3:使用公式(2)计算得到目标q值q_target:

18、q_target=r+γq_next (2)

19、其中r为奖励值,γ为对动作进行估值时下一步动作的价值所占权重;

20、步骤6.4:将批次经验中的观测值o和动作a输入critic1网络得到q1值,将观测值o和动作a输入critic2网络得到q2值。

21、步骤7:使用均方误差更新公式,td-error延迟策略更新双critic网络,使用-q更新双actor网络;具体步骤为:

22、使用均方误差公式(3)计算critic网络损失,critic1和critic2网络轮流更新:

23、e[(q_target-qi)2],i=1,2 (3)。

24、与现有技术相比本专利技术具有以下优点:

25、双actor网络增强智能体探索能力,再通过双critic网络将两个q值线性组合使q值更接近真实值,有效缓解了值估计不准确的问题,使算法更加稳定和健壮,显著提高了导航的成功率,在mpe的导航环境中提高了19.7%。

本文档来自技高网...

【技术保护点】

1.一种基于双网络的多智能体强化学习导航描述方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于双网络的多智能体强化学习导航描述方法,其特征在于,步骤1中初始化智能体和地标的导航环境,包括在固定范围内随机设置智能体位置,初始化动作为0,所述环境观测信息包括智能体的坐标、速度信息、目标位置和距离其它智能体的距离。

3.根据权利要求1所述的一种基于双网络的多智能体强化学习导航描述方法,其特征在于,所述步骤2将观测到的信息输入到双网络中的双Actor网络中得到动作,选取Q值大的动作,具体步骤为:

4.根据权利要求1所述的一种基于双网络的多智能体强化学习导航描述方法,其特征在于,所述步骤6中将下一观测值o’和下一动作a1′和a2′输入双网络中的双Critic_target网络得到q_next值,将观测值o和动作a输入双网络中的双Critic网络得到q值的具体步骤为:

5.根据权利要求1所述的一种基于双网络的多智能体强化学习导航描述方法,其特征在于,所述步骤7使用均方误差更新公式,TD-error延迟策略更新双Critic网络,使用-q更新双Actor网络的具体步骤为:

...

【技术特征摘要】

1.一种基于双网络的多智能体强化学习导航描述方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于双网络的多智能体强化学习导航描述方法,其特征在于,步骤1中初始化智能体和地标的导航环境,包括在固定范围内随机设置智能体位置,初始化动作为0,所述环境观测信息包括智能体的坐标、速度信息、目标位置和距离其它智能体的距离。

3.根据权利要求1所述的一种基于双网络的多智能体强化学习导航描述方法,其特征在于,所述步骤2将观测到的信息输入到双网络中的双actor网络中得到动作,选取q值大的动作...

【专利技术属性】
技术研发人员:况立群张耀丹韩慧妍曹亚明焦世超熊风光韩燮
申请(专利权)人:中北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1