【技术实现步骤摘要】
本专利技术涉及强化学习和追逃博弈控制,特别是涉及一种基于强化学习的追捕策略训练方法、设备、介质及产品。
技术介绍
1、追逃博弈作为控制领域的重要课题,在军事、工业流程等各个领域中应用广泛。三体对抗是一种经典的追逃博弈场景,该场景包含追捕者、拦截者和目标物三方。追捕者需要在规避拦截者的同时尽可能地靠近并抓捕目标,拦截者负责拦截追捕者,目标则根据自身逃逸策略远离追捕者。随着强化学习技术的不断发展,利用强化学习算法解决控制问题展现了其无模型依赖、响应快、性能好的优势。追逃博弈业已成为强化学习算法的经典测试场景,基于强化学习算法实现智能体自主追捕训练,提高智能体的追捕性能的研究方案得到了广泛关注。然而,经典强化学习算法在面对复杂问题时仍存在学习慢、效果差等缺陷。
技术实现思路
1、本专利技术的目的是提供一种基于强化学习的追捕策略训练方法、设备、介质及产品,可实现追捕策略高效自主训练,提高智能体追捕性能和成功率。
2、为实现上述目的,本专利技术提供了如下方案:
3、第一方面,
...【技术保护点】
1.一种基于强化学习的追捕策略训练方法,其特征在于,包括:
2.根据权利要求1所述的一种基于强化学习的追捕策略训练方法,其特征在于,所述均化深度确定性策略梯度算法基于平均化的集成目标值函数实现时间差分更新。
3.根据权利要求2所述的一种基于强化学习的追捕策略训练方法,其特征在于,所述均化深度确定性策略梯度算法,基于网络随机初始化,确定每一价值网络的差异性,并使用多步回报计算目标值函数。
4.根据权利要求3所述的一种基于强化学习的追捕策略训练方法,其特征在于,使用多步回报计算目标值函数,具体包括:
5.根据权利要求1所述的
...【技术特征摘要】
1.一种基于强化学习的追捕策略训练方法,其特征在于,包括:
2.根据权利要求1所述的一种基于强化学习的追捕策略训练方法,其特征在于,所述均化深度确定性策略梯度算法基于平均化的集成目标值函数实现时间差分更新。
3.根据权利要求2所述的一种基于强化学习的追捕策略训练方法,其特征在于,所述均化深度确定性策略梯度算法,基于网络随机初始化,确定每一价值网络的差异性,并使用多步回报计算目标值函数。
4.根据权利要求3所述的一种基于强化学习的追捕策略训练方法,其特征在于,使用多步回报计算目标值函数,具体包括:
5.根据权利要求1所述的一种基于强化学习的追捕策略训练方法,其特征在于,每一所述价值网络使用不同的样本概率分布,独立地抽取经验样本进行训练中优化所述价值网络的损失函数为:
6.根据权利要求1所述的一种基于强化学习的追捕...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。