当前位置: 首页 > 专利查询>南开大学专利>正文

基于强化学习的追捕策略训练方法、设备、介质及产品技术

技术编号:41502720 阅读:29 留言:0更新日期:2024-05-30 14:44
本发明专利技术公开一种基于强化学习的追捕策略训练方法、设备、介质及产品,涉及强化学习和追逃博弈控制技术领域,该方法涉及拦截者、追捕者和目标之间的博弈场景。拦截者采用比例指导策略对追捕者进行拦截,而追捕者则采用基于集成价值网络结构的均化深度确定性策略梯度算法对目标进行追捕。MDPG算法引入集成价值网络结构,其中每个价值网络对应一个目标值函数,使用不同的样本概率分布独立地进行训练。目标则采用逃逸策略来躲避追捕者的追捕。通过不同训练样本,计算各追逃博弈场景中智能体之间的距离和追捕者的航向角改变量,以得到各场景中追捕者的回报值。本发明专利技术提供的MDPG算法可实现追捕策略高效自主训练,提高了智能体追捕性能和成功率。

【技术实现步骤摘要】

本专利技术涉及强化学习和追逃博弈控制,特别是涉及一种基于强化学习的追捕策略训练方法、设备、介质及产品


技术介绍

1、追逃博弈作为控制领域的重要课题,在军事、工业流程等各个领域中应用广泛。三体对抗是一种经典的追逃博弈场景,该场景包含追捕者、拦截者和目标物三方。追捕者需要在规避拦截者的同时尽可能地靠近并抓捕目标,拦截者负责拦截追捕者,目标则根据自身逃逸策略远离追捕者。随着强化学习技术的不断发展,利用强化学习算法解决控制问题展现了其无模型依赖、响应快、性能好的优势。追逃博弈业已成为强化学习算法的经典测试场景,基于强化学习算法实现智能体自主追捕训练,提高智能体的追捕性能的研究方案得到了广泛关注。然而,经典强化学习算法在面对复杂问题时仍存在学习慢、效果差等缺陷。


技术实现思路

1、本专利技术的目的是提供一种基于强化学习的追捕策略训练方法、设备、介质及产品,可实现追捕策略高效自主训练,提高智能体追捕性能和成功率。

2、为实现上述目的,本专利技术提供了如下方案:

3、第一方面,本专利技术提供了一种本文档来自技高网...

【技术保护点】

1.一种基于强化学习的追捕策略训练方法,其特征在于,包括:

2.根据权利要求1所述的一种基于强化学习的追捕策略训练方法,其特征在于,所述均化深度确定性策略梯度算法基于平均化的集成目标值函数实现时间差分更新。

3.根据权利要求2所述的一种基于强化学习的追捕策略训练方法,其特征在于,所述均化深度确定性策略梯度算法,基于网络随机初始化,确定每一价值网络的差异性,并使用多步回报计算目标值函数。

4.根据权利要求3所述的一种基于强化学习的追捕策略训练方法,其特征在于,使用多步回报计算目标值函数,具体包括:

5.根据权利要求1所述的一种基于强化学习的追...

【技术特征摘要】

1.一种基于强化学习的追捕策略训练方法,其特征在于,包括:

2.根据权利要求1所述的一种基于强化学习的追捕策略训练方法,其特征在于,所述均化深度确定性策略梯度算法基于平均化的集成目标值函数实现时间差分更新。

3.根据权利要求2所述的一种基于强化学习的追捕策略训练方法,其特征在于,所述均化深度确定性策略梯度算法,基于网络随机初始化,确定每一价值网络的差异性,并使用多步回报计算目标值函数。

4.根据权利要求3所述的一种基于强化学习的追捕策略训练方法,其特征在于,使用多步回报计算目标值函数,具体包括:

5.根据权利要求1所述的一种基于强化学习的追捕策略训练方法,其特征在于,每一所述价值网络使用不同的样本概率分布,独立地抽取经验样本进行训练中优化所述价值网络的损失函数为:

6.根据权利要求1所述的一种基于强化学习的追捕...

【专利技术属性】
技术研发人员:张建磊张春燕普显东
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1