基于强化学习的追捕策略训练方法、设备、介质及产品技术

技术编号：41502720 阅读：23 留言：0更新日期：2024-05-30 14:44

本发明专利技术公开一种基于强化学习的追捕策略训练方法、设备、介质及产品，涉及强化学习和追逃博弈控制技术领域，该方法涉及拦截者、追捕者和目标之间的博弈场景。拦截者采用比例指导策略对追捕者进行拦截，而追捕者则采用基于集成价值网络结构的均化深度确定性策略梯度算法对目标进行追捕。MDPG算法引入集成价值网络结构，其中每个价值网络对应一个目标值函数，使用不同的样本概率分布独立地进行训练。目标则采用逃逸策略来躲避追捕者的追捕。通过不同训练样本，计算各追逃博弈场景中智能体之间的距离和追捕者的航向角改变量，以得到各场景中追捕者的回报值。本发明专利技术提供的MDPG算法可实现追捕策略高效自主训练，提高了智能体追捕性能和成功率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习和追逃博弈控制，特别是涉及一种基于强化学习的追捕策略训练方法、设备、介质及产品。

技术介绍

1、追逃博弈作为控制领域的重要课题，在军事、工业流程等各个领域中应用广泛。三体对抗是一种经典的追逃博弈场景，该场景包含追捕者、拦截者和目标物三方。追捕者需要在规避拦截者的同时尽可能地靠近并抓捕目标，拦截者负责拦截追捕者，目标则根据自身逃逸策略远离追捕者。随着强化学习技术的不断发展，利用强化学习算法解决控制问题展现了其无模型依赖、响应快、性能好的优势。追逃博弈业已成为强化学习算法的经典测试场景，基于强化学习算法实现智能体自主追捕训练，提高智能体的追捕性能的研究方案得到了广泛关注。然而，经典强化学习算法在面对复杂问题时仍存在学习慢、效果差等缺陷。

技术实现思路

1、本专利技术的目的是提供一种基于强化学习的追捕策略训练方法、设备、介质及产品，可实现追捕策略高效自主训练，提高智能体追捕性能和成功率。

2、为实现上述目的，本专利技术提供了如下方案：

3、第一方面，本专利技术提供了一种基于强化学习的追捕策略训练方法，包括：

4、获取追捕策略中各个智能体的仿真环境相关参数；所述智能体包括追捕者、拦截者和目标；所述仿真环境相关参数包括所述智能体的初始坐标、速率、最大航程、最大航向角改变量和碰撞判断距离。

5、设置所述拦截者采用比例指导策略对所述追捕者进行拦截。

6、设置所述追捕者采用mdpg策略对所述目标进行追捕；所述mdpg

7、设置所述目标采用逃逸策略躲避所述追捕者的追捕。

8、根据各个智能体的仿真环境相关参数以及各所述智能体对应的策略，建立二维质点模型。

9、随机生成多个训练样本；每一所述训练样本中各所述智能体的初始坐标均不相同。

10、基于各所述训练样本，计算各追逃博弈场景中各所述智能体之间的距离和追捕者的航向角改变量，得到各追逃博弈场景中追捕者的回报值。

11、可选的，所述均化深度确定性策略梯度算法基于平均化的集成目标值函数实现时间差分更新。

12、可选的，所述均化深度确定性策略梯度算法，基于网络随机初始化，确定每一价值网络的差异性，并使用多步回报计算目标值函数。

13、可选的，使用多步回报计算目标值函数，具体包括：

14、根据公式计算目标函数。

15、其中，μ′(s|ωμ′)是目标+动作网络，ωμ′是目标动作网络的参数；n是价值网络数量；s为状态；是网络qi的参数；(st,at,rt,st+1)为给定经验序列。

16、可选的，每一所述价值网络使用不同的样本概率分布，独立地抽取经验样本进行训练中优化所述价值网络的损失函数为：

17、

18、其中，为集成网络m步td目标。

19、可选的，所述追逃博弈场景中追捕者的回报值求取公式如下：

20、

21、其中，a指代追捕者，d指代拦截者，t指代目标；d(k1,k2,t)表示智能体k1,k2∈{a,d,t}在t时刻的几何距离；dnorm为缩放常数，用于缩放距离；θa(t)为t时刻追捕者航向角改变量；wi,i∈{1,2,3}表示各项权重。

22、可选的，所述逃逸策略包括固定位置逃逸策略和远离追捕者逃逸策略。

23、第二方面，本专利技术提供了一种计算机设备，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序以实现第一方面所述的一种基于强化学习的追捕策略训练方法的步骤。

24、第三方面，本专利技术提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面所述的一种基于强化学习的追捕策略训练方法的步骤。

25、第四方面，本专利技术提供了一种计算机程序产品，包括计算机程序，该计算机程序/指令被处理器执行时实现第一方面所述的一种基于强化学习的追捕策略训练方法的步骤。

26、根据本专利技术提供的具体实施例，本专利技术公开了以下技术效果：

27、本专利技术公开了一种基于强化学习的追捕策略训练方法、设备、介质及产品，该方法包括：获取追捕策略中追捕者、拦截者和目标的仿真环境参数，如初始坐标、速率、最大航程、最大航向角改变量和碰撞判断距离。拦截者使用比例指导策略拦截追捕者，而追捕者采用基于集成价值网络结构的均化深度确定性策略梯度算法(mdpg)追捕目标。mdpg算法引入了集成价值网络结构，其中每个价值网络对应一个目标值函数，使用不同的样本概率分布独立地进行训练。目标采用逃逸策略躲避追捕者。通过各智能体的仿真环境参数和相应策略，建立了二维质点模型，随机生成多个训练样本，其中每个样本的智能体初始坐标都不相同。基于这些训练样本，计算各追逃博弈场景中智能体间的距离和追捕者的航向角改变量，以获得追捕者在每个场景中的回报值。本专利技术在传统ddpg算法的基础上，引入集成网络结构，提出基于集成价值网络结构的均化深度确定性策略梯度算法mdpg。mdpg算法可实现追捕策略高效自主训练，提高了智能体追捕性能和成功率。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的追捕策略训练方法，其特征在于，包括：

2.根据权利要求1所述的一种基于强化学习的追捕策略训练方法，其特征在于，所述均化深度确定性策略梯度算法基于平均化的集成目标值函数实现时间差分更新。

3.根据权利要求2所述的一种基于强化学习的追捕策略训练方法，其特征在于，所述均化深度确定性策略梯度算法，基于网络随机初始化，确定每一价值网络的差异性，并使用多步回报计算目标值函数。

4.根据权利要求3所述的一种基于强化学习的追捕策略训练方法，其特征在于，使用多步回报计算目标值函数，具体包括：

5.根据权利要求1所述的一种基于强化学习的追捕策略训练方法，其特征在于，每一所述价值网络使用不同的样本概率分布，独立地抽取经验样本进行训练中优化所述价值网络的损失函数为：

6.根据权利要求1所述的一种基于强化学习的追捕策略训练方法，其特征在于，所述追逃博弈场景中追捕者的回报值求取公式如下：

7.根据权利要求1所述的一种基于强化学习的追捕策略训练方法，其特征在于，所述逃逸策略包括固定位置逃逸策略和远离追捕者逃逸策略。</p>

8.一种计算机设备，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述的一种基于强化学习的追捕策略训练方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述的一种基于强化学习的追捕策略训练方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述的一种基于强化学习的追捕策略训练方法的步骤。

...

【技术特征摘要】

1.一种基于强化学习的追捕策略训练方法，其特征在于，包括：

4.根据权利要求3所述的一种基于强化学习的追捕策略训练方法，其特征在于，使用多步回报计算目标值函数，具体包括：

6.根据权利要求1所述的一种基于强化学习的追捕...

【专利技术属性】
技术研发人员：张建磊，张春燕，普显东，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人