System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于分层模型的协作方法及其应用技术_技高网

一种基于分层模型的协作方法及其应用技术

技术编号:40964856 阅读:4 留言:0更新日期:2024-04-18 20:44
本发明专利技术涉及一种基于分层模型的协作方法及其应用,构建应用场景,设置分层模型,包括上层的策略选择器和下层的策略模型,配合设判断模块,策略选择器根据当前态势信息指导选择策略模型,执行结束后判断模块判断是否切换下层的策略模型;策略选择器以近端策略优化算法训练,各策略模型以近端策略优化算法控制;场景内被控对象以训练稳定的分层模型在应用场景中协作;应用于对战形式的场景模拟。本发明专利技术将战机作战时的复杂操作流程分解成五个策略模型,缓解状态与动作空间过大的问题,降低维度,有效提升策略模型的学习效率;为每个策略模型设置单独的奖励函数,各策略模型能得到有效的训练;分层方法实现复杂任务,达到迁移学习目的,提高泛化能力。

【技术实现步骤摘要】

本专利技术涉及电数字数据处理的,特别涉及一种强化学习、人工智能学习的的基于分层模型的协作方法及其应用


技术介绍

1、随着大数据、云计算、物联网等一系列新兴技术的大量涌现,人工智能技术不断取得突破性进展。深度强化学习技术作为人工智能的重要成果之一,具有不需要数据标签、环境模型、提取特征等内在特点,符合许多实际应用问题的技术要求,强化学习在现实世界中的应用领域取得了显著的进展,包括机器人控制、自动驾驶、资源管理、游戏智能等。

2、但强化学习也存在难以解决的稀疏奖励、顺序决策和弱迁移能力等问题,在训练智能体时,态势信息和动作空间的组合过于庞大,智能体和环境交互过程中,奖励函数比较稀疏,当环境奖励过于稀疏时,智能体可能长期都没有办法获得具有正奖励的样本,给值函数和策略的学习带来了困难,这就导致智能体训练不出好的效果。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种基于分层模型的协作方法及其应用。

2、本专利技术所采用的技术方案是,一种基于分层模型的协作方法,所述方法构建应用场景,设置分层模型,所述分层模型包括上层的策略选择器和下层的策略模型,配合所述策略选择器和策略模型还设有判断模块,所述策略选择器根据当前的态势信息指导选择对应的下层的策略模型,执行结束后判断模块根据实时态势信息判断是否切换下层的策略模型;所述上层的策略选择器以近端策略优化算法训练,各策略模型则以近端策略优化算法控制;场景内被控对象以训练稳定的分层模型在应用场景中协作。

3、在实际应用中,判断模块为中断函数;当下层策略模型执行结束,态势信息发生改变,中断函数根据当前态势信息,做出判断是否进行中断,不中断则继续执行上一步选择的下层策略模型,中断则由策略选择器根据当前态势信息重新选取一个最优的下层策略模型进行执行。

4、优选地,所述策略模型包括区域巡逻模型、探测器控制模型、追踪目标模型、躲避目标模型、目标打击模型。

5、优选地,所述区域巡逻模型将整个应用场景分为n个区域,将应用场景态势信息归一化处理后输入近端策略优化网络,网络输出被控对象所要执行区域巡逻的区域,根据被控对象与环境交互获得的奖励持续更新近端策略优化网络的参数;所述奖励包括被控对象的个体奖励和团队奖励。

6、优选地,所述探测器控制模型中,一般情况下,探测器都处于关闭状态,被控对象开启探测器的同时,非被控对象也可以根据被控对象探测器从而发现被控对象,所以尽可能降低因开启探测器从而导致被控对象位置信息暴露的风险,在尽可能确保被控对象位置信息安全的前提下,又能通过开启探测器来探测到非被控对象的位置信息;

7、探测器控制模型采用半监督学习方法来对探测器进行控制,该方法基于卷积神经网络。根据专家经验对数据进行贴标签,首先计算2个被控对象的探测器探测的重叠区域,以s代表2个被控对象的距离、代表探测器的探测半角,得到:

8、s≤rsinφ

9、

10、其中,r代表探测器的探测距离,和分别表示2个被控对象的航向角;若两个公式成立,则关闭一探测器,即两个公式成立时,标签为1,不成立时标签为0,按上面操作对数据进行贴标签处理,得到标签数据。

11、将标签数据输入生成对抗网络,进行学习,将生成对抗网络生成的数据输入残差网络;以残差网络对数据分类处理,残差网络分类准确率达到预设标准后,将残差网络在原始标签数据上进行训练。

12、因为需要大量数据,所以采用生成对抗网络扩充标签数据,将标签数据输入生成对抗网络,在训练过程中加入噪声数据,提高网络的鲁棒性,生成对抗网络中生成器和判别器相互对抗、不断学习,最终输出的数据与输入的标签数据应当尽可能相似;

13、采用残差网络对数据进行分类处理,构建两个残差网络分别为残差网络a和残差网络b,均由16层4×4卷积块组成,将生成对抗网络生成的数据作为向量输入残差网络a,残差网络a分类准确率达到90%后,将残差网络a参数赋值给残差网络b,将残差网络a在原始标签数据上进行训练,采用软更新方式更新参数,采用如下公式进行更新:pa=lpa+pb(1-l),pa为残差网络a的参数,pb为残差网络b的参数,l为更新权重,以此更新防止过度调参,加快训练进度;当更新次数超过50次,再将残差网络a参数赋值给残差网络b,重复上面操作直到残差网络a准确率达到95%后停止更新,将残差网络a的输出为训练好的残差网络输出的分类概率,作为探测器控制模型的输出。

14、优选地,追踪目标模型为向近端策略优化网络输入所有对象的态势信息,包括被控对象和被控对象所要追踪目标的位置、朝向、速度等信息,根据威胁度公式计算非被控对象威胁度,以对被控对象威胁最大的非被控对象为被控对象的追踪目标,威胁度计算公式如下:

15、w=k3a+k4s+k5l'

16、其中,θ1为非被控对象的方位角,θ2为非被控对象的进入角,a为角度优势值,a=(θ2-θ1)/180,w为威胁值,k3,k4,k5均为非负权重系数且和为1,s为非被控对象与被控对象速度的差值,l'为非被控对象与被控对象的距离。输出被控对象的态势信息,此处为朝向的变化值;设置近端策略优化网络奖励h=k1d+k2a,其中d为距离优势奖励,a为角度优势奖励,k1,k2为加权系数且满足k1+k2=1,网络的参数优化趋势是朝最大化h的方向更新网络参数,以确保被控对象追击目标的同时确保自身的安全。

17、优选地,以dlon1为被控对象当前状态与目标非被控对象的经度的弧度差,以dlat1为被控对象当前状态与目标非被控对象的纬度的弧度差,以dlon2为被控对象下一状态与目标非被控对象的经度的弧度差,以dlat2为被控对象下一状态与目标非被控对象的纬度的弧度差,满足,

18、dlon1=lon1–lon3

19、dlat1=lat1–lat3

20、dlon2=lon2–lon3

21、dlat2=lat2–lat3

22、其中,lon1、lat1为被控对象当前状态的经纬度的弧度表示,lon2、lat2为被控对象下一状态的经纬度的弧度表示,lon3、lat3为目标非被控对象当前状态的经纬度的弧度表示,所述距离优势d满足,

23、d=2×6371×(a1sin(sqrt(a1))–a2sin(sqrt(a2)))

24、其中,a1=sin(dlat1/2)2+cos(lat1)×cos(lat3)×sin(dlon1/2)2,

25、a2=sin(dlat2/2)2+cos(lat2)×cos(lat3)×sin(dlon2/2)2;

26、d为被控对象当前状态与目标非被控对象的距离与被控对象下一状态与非被控对象的距离之差,d越大则说明被控对象越靠近所要追击的目标;此处6371为地球的平均半径6371千米,此处将其转换单位为米;

27、所述角度优势为a=(θ1-θ2)/180,<本文档来自技高网...

【技术保护点】

1.一种基于分层模型的协作方法,其特征在于:所述方法构建应用场景,设置分层模型,所述分层模型包括上层的策略选择器和下层的策略模型,配合所述策略选择器和策略模型还设有判断模块,所述策略选择器根据当前的态势信息指导选择对应的下层的策略模型,执行结束后判断模块根据实时态势信息判断是否切换下层的策略模型;所述上层的策略选择器以近端策略优化算法训练,各策略模型则以近端策略优化算法控制;场景内被控对象以训练稳定的分层模型在应用场景中协作。

2.根据权利要求1所述的一种基于分层模型的协作方法,其特征在于:所述策略模型包括区域巡逻模型、探测器控制模型、追踪目标模型、躲避目标模型、目标打击模型。

3.根据权利要求2所述的一种基于分层模型的协作方法,其特征在于:所述区域巡逻模型将整个应用场景分为n个区域,将应用场景态势信息归一化处理后输入近端策略优化网络,输出被控对象所要执行区域巡逻的区域,根据被控对象与环境交互获得的奖励持续更新近端策略优化网络的参数;所述奖励包括被控对象的个体奖励和团队奖励。

4.根据权利要求2所述的一种基于分层模型的协作方法,其特征在于:所述探测器控制模型中,计算2个被控对象的探测器探测的重叠区域,以s代表2个被控对象的距离、代表探测器的探测半角,得到,

5.根据权利要求2所述的一种基于分层模型的协作方法,其特征在于:追踪目标模型为向近端策略优化网络输入所有对象的态势信息,根据威胁度公式计算威胁度,以对被控对象威胁最大的非被控对象为被控对象的追踪目标;输出被控对象的态势信息;设置近端策略优化网络奖励h=k1d+k2a,其中d为距离优势奖励,a为角度优势奖励,k1,k2为加权系数且满足k1+k2=1。

6.根据权利要求5所述的一种基于分层模型的协作方法,其特征在于:以dlon1为被控对象当前状态与目标非被控对象的经度的弧度差,以dlat1为被控对象当前状态与目标非被控对象的纬度的弧度差,以dlon2为被控对象下一状态与目标非被控对象的经度的弧度差,以dlat2为被控对象下一状态与目标非被控对象的纬度的弧度差,满足,

7.根据权利要求2所述的一种基于分层模型的协作方法,其特征在于:所述躲避目标模型中输入的态势信息包括所有对象的态势信息,输出被控对象的态势信息;设置近端策略优化算法的奖励,为距离优势奖励L=L2-L1,其中,L1为当前状态下被控对象与探测到的所有非被控对象的平均距离,L2为下一状态下被控对象与探测到的所有非被控对象的平均距离。

8.根据权利要求2所述的一种基于分层模型的协作方法,其特征在于:所述目标打击模型中输入的态势信息包括所有对象的态势信息,输出被控对象的打击策略;设置近端策略优化算法的奖励为距离优势奖励。

9.根据权利要求8所述的一种基于分层模型的协作方法,其特征在于:以Rxi为i类工具攻击的最远攻击范围的一半,

10.一种权利要求1~9之一所述的基于分层模型的协作方法的应用,其特征在于:应用于对战形式的场景模拟;在推演平台构建对战形式的应用场景,场景中,所有对象的特征相同,非被控对象以专家制定的规则控制,被控对象以所述分层模型控制。

...

【技术特征摘要】

1.一种基于分层模型的协作方法,其特征在于:所述方法构建应用场景,设置分层模型,所述分层模型包括上层的策略选择器和下层的策略模型,配合所述策略选择器和策略模型还设有判断模块,所述策略选择器根据当前的态势信息指导选择对应的下层的策略模型,执行结束后判断模块根据实时态势信息判断是否切换下层的策略模型;所述上层的策略选择器以近端策略优化算法训练,各策略模型则以近端策略优化算法控制;场景内被控对象以训练稳定的分层模型在应用场景中协作。

2.根据权利要求1所述的一种基于分层模型的协作方法,其特征在于:所述策略模型包括区域巡逻模型、探测器控制模型、追踪目标模型、躲避目标模型、目标打击模型。

3.根据权利要求2所述的一种基于分层模型的协作方法,其特征在于:所述区域巡逻模型将整个应用场景分为n个区域,将应用场景态势信息归一化处理后输入近端策略优化网络,输出被控对象所要执行区域巡逻的区域,根据被控对象与环境交互获得的奖励持续更新近端策略优化网络的参数;所述奖励包括被控对象的个体奖励和团队奖励。

4.根据权利要求2所述的一种基于分层模型的协作方法,其特征在于:所述探测器控制模型中,计算2个被控对象的探测器探测的重叠区域,以s代表2个被控对象的距离、代表探测器的探测半角,得到,

5.根据权利要求2所述的一种基于分层模型的协作方法,其特征在于:追踪目标模型为向近端策略优化网络输入所有对象的态势信息,根据威胁度公式计算威胁度,以对被控对象威胁最大的非被控对象为被控对象的追踪目标;输出被控对象的态势信息;设置近端...

【专利技术属性】
技术研发人员:赵自豪冯宇潘明岩李永强
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1