对手策略反演方法、系统、装置制造方法及图纸

技术编号:27744442 阅读:24 留言:0更新日期:2021-03-19 13:38
本发明专利技术属于决策推演领域,具体涉及一种对手策略反演方法、系统、装置,旨在解决现有的策略反演方法无法有效的估计对手的意图以及自适应性较差的问题。本方法包括实时获取在可见范围内对抗方各智能体的状态信息,作为输入信息;基于输入信息,结合预获取的第一概率,通过深度置信网络模型获取所述对抗方各智能体前进路线对应的后验预测概率;对所述对抗方各智能体,根据其速度,结合后验预测概率最大的前进路线,计算其对应的预测机动位置;第一概率为对抗方各智能体的时空运动轨迹经过关键地点的先验概率。本发明专利技术可有效的估计对手的意图,提升了智能体博弈对抗的能力以及自适应性。

【技术实现步骤摘要】
对手策略反演方法、系统、装置
本专利技术属于决策推演领域,具体涉及一种对手策略反演方法、系统、装置。
技术介绍
多智能体博弈具有实时对抗、群体协作、非完全信息博弈、庞大的搜索空间、多复杂任务和时间空间推理等特点,是当前人工智能领域极具挑战的难题。同时该领域研究成果在社会管理、智能交通、经济、军事等领域有广阔的应用前景。博弈中态势评估是首要关节。目前态势评估的模型有很多种,但最常用的应属Endsley三层态势评估模型。Endsley认为态势评估是决策者在一定的时间和空间内,对周围环境中要素含义的理解,以及对它们未来状态的改变进行预测,是决策者的理解过程。于是,他从人的认知角度,根据人的思维过程,把态势评估分为态势感知、态势理解和态势预测三个层面。1)态势感知,即指挥员通过多渠道对战场环境信息进行获取,如战场环境、兵力部署、作战企图/作战目标等。2)态势理解,即对所感知的信息因素结合战场环境给予深层次认识和理解。3)态势预测,即根据态势感知和理解的结果,采取相应行动后,对未来事件发展变化的一种预测。在态势评估中难度最大的是态势预测,需要对未来行为估计和探索,特别是在博弈对抗过程,需要对对手策略和意图进行估计反演,这成为博弈对抗成功的关键所在。而现有的策略反演方法却无法有效的估计对手的意图。另外,分布式多智能体对抗是为了实现单一目标而从预先定义的分布式系统协议迁移而来的。经典设计有一个规定的目标,然后使用自顶向下的设计方法来分散操作。例如,整个战场的操作者首先在全局范围内为代理设计最优策略,然后根据代理的局部信息通知每个代理如何行动。然而,当一个代理离开修改系统的战场时,先前设计的策略不再是全局最优的。因此,在自上而下的设计中,一件作品的丢失将失去整个效果。在这种方法中,代理被编程成离线的设计方式,从而失去自适应性。
技术实现思路
为了解决现有技术中的上述问题,即为了解决的现有的策略反演方法无法有效的估计对手的意图以及自适应性较差的问题,本专利技术第一方面,提出了一种对手策略反演方法,该方法包括:步骤S10,实时获取在可见范围内对抗方各智能体的状态信息,作为输入信息;所述状态信息包括ID、时空运动轨迹、机动状态、速度;步骤S20,基于所述输入信息,结合预获取的第一概率,通过深度置信网络模型获取所述对抗方各智能体前进路线对应的后验预测概率;步骤S30,对所述对抗方各智能体,根据其速度,结合后验预测概率最大的前进路线,计算其对应的预测机动位置;其中,所述第一概率为对抗方各智能体的时空运动轨迹经过关键地点的先验概率。在一些优选的实施方式中,所述第一概率,其获取方法为:步骤A10,采集对抗方各智能体的历史状态信息;步骤A20,通过预设的密度聚类算法按时序对所述历史状态信息进行轨迹聚类;聚类后,将轨迹点的数量大于设定数量阈值的类对应的轨迹点作为关键地点;步骤A30,计算对抗方各智能体的历史时空运动轨迹经过关键地点的先验概率,作为第一概率。在一些优选的实施方式中,步骤A20中“通过预设的密度聚类算法按时序对所述历史状态信息进行轨迹聚类”,其方法为:计算当前智能体的历史时空运动轨迹与样本轨迹的垂直距离、水平距离以及夹角距离;所述样本轨迹为其他智能体的历史时空运动轨迹聚类后的轨迹;结合预设的权重,对垂直距离、水平距离以及夹角距离进行加权求和,作为当前智能体的历史时空运动轨迹与样本轨迹之间的最终距离;若所述最终距离小于设定的样本间距阈值,则聚为一类。在一些优选的实施方式中,“当前智能体的时空运动轨迹与样本轨迹之间的最终距离”,其计算方法为:ist(Li,Lj)=ω⊥.d⊥(Li,Lj)+ω||.d||(Li,Lj)+ωθ.dθ(Li,Lj)d||=MIN(l||1,l||2)其中,dist(Li,Lj)表示最终距离,d⊥(Li,Lj)、d||(Li,Lj)、dθ(Li,Lj)分别表示垂直距离、水平距离、夹角距离,ω⊥、ω||、ωθ分别表示垂直距离、水平距离、夹角距离对应的权重值,Li、Lj表示样本轨迹、当前智能体的历史时空运动轨迹,l⊥1、l⊥2表示表示Lj的一个端点到Li的距离、Lj的另一个端点到Li的距离,l||1表示Lj的一个端点到Li的投影点,与Li对应端端点的距离,l||2表示Lj的另一个端点到Li的投影点,与Li对应端端点的距离,θ表示Li和Lj的夹角。在一些优选的实施方式中,步骤A30中“计算对抗方各智能体的时空运动轨迹经过关键地点的先验概率”,其方法为:通过贝叶斯模型统计、计算对抗方各智能体的历史时空运动轨迹经过关键地点的先验概率。本专利技术的第二方面,提出了一种对手策略反演系统,该系统包括:信息获取模块、概率计算模块、策略反演模块;所述信息获取模块,配置为实时获取在可见范围内对抗方各智能体的状态信息,作为输入信息;所述状态信息包括ID、时空运动轨迹、机动状态、速度;所述概率计算模块,配置为基于所述输入信息,结合预获取的第一概率,通过深度置信网络模型获取所述对抗方各智能体前进路线对应的后验预测概率;所述策略反演模块,配置为对所述对抗方各智能体,根据其速度,结合后验预测概率最大的前进路线,计算其对应的预测机动位置;其中,所述第一概率为对抗方各智能体的时空运动轨迹经过关键地点的先验概率。本专利技术的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的对手策略反演方法。本专利技术的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的对手策略反演方法。本专利技术的有益效果:本专利技术可有效的估计对手的意图,提升了智能体博弈对抗的能力以及自适应性。本专利技术先对对抗方所有智能体的路线进行聚类,建立先验Bayes模型。在当前方行动阶段,在移动过程中会看到对抗方部分智能体,依据部分对抗方可见智能体的信息即可估计出对抗方的进攻路线。本专利技术可以有效估计对手的行动轨迹和行动策略,提高对对手的对抗方案的实时估计能力和自适应性,便于后续制定针对性比较强的对抗方案,可以有效提高智能体博弈对抗的博弈能力。附图说明通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。图1是本专利技术一种实施例的对手策略反演方法的流程示意图;图2是本专利技术一种实施例的对手策略反演系统的框架示意图;图3是本专利技术一种实施例的密度聚类算法的聚类效果示意图;图4是本专利技术一种实施例的距离计算的流程示意图;图5是本专利技术一种实施例的对手策略反演方法的详细流程示意图;图6是本专利技术一种实施例的行为序列DBN模型的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施例中的技术方案进行清楚本文档来自技高网
...

【技术保护点】
1.一种对手策略反演方法,其特征在于,该方法包括以下步骤:/n步骤S10,实时获取在可见范围内对抗方各智能体的状态信息,作为输入信息;所述状态信息包括ID、时空运动轨迹、机动状态、速度;/n步骤S20,基于所述输入信息,结合预获取的第一概率,通过深度置信网络模型获取所述对抗方各智能体前进路线对应的后验预测概率;/n步骤S30,对所述对抗方各智能体,根据其速度,结合后验预测概率最大的前进路线,计算其对应的预测机动位置;/n其中,所述第一概率为对抗方各智能体的时空运动轨迹经过关键地点的先验概率。/n

【技术特征摘要】
1.一种对手策略反演方法,其特征在于,该方法包括以下步骤:
步骤S10,实时获取在可见范围内对抗方各智能体的状态信息,作为输入信息;所述状态信息包括ID、时空运动轨迹、机动状态、速度;
步骤S20,基于所述输入信息,结合预获取的第一概率,通过深度置信网络模型获取所述对抗方各智能体前进路线对应的后验预测概率;
步骤S30,对所述对抗方各智能体,根据其速度,结合后验预测概率最大的前进路线,计算其对应的预测机动位置;
其中,所述第一概率为对抗方各智能体的时空运动轨迹经过关键地点的先验概率。


2.根据权利要求1所述的对手策略反演方法,其特征在于,所述第一概率,其获取方法为:
步骤A10,采集对抗方各智能体的历史状态信息;
步骤A20,通过预设的密度聚类算法按时序对所述历史状态信息进行轨迹聚类;聚类后,将轨迹点的数量大于设定数量阈值的类对应的轨迹点作为关键地点;
步骤A30,计算对抗方各智能体的历史时空运动轨迹经过关键地点的先验概率,作为第一概率。


3.根据权利要求2所述的对手策略反演方法,其特征在于,步骤A20中“通过预设的密度聚类算法按时序对所述历史状态信息进行轨迹聚类”,其方法为:
计算当前智能体的历史时空运动轨迹与样本轨迹的垂直距离、水平距离以及夹角距离;所述样本轨迹为其他智能体的历史时空运动轨迹聚类后的轨迹;
结合预设的权重,对垂直距离、水平距离以及夹角距离进行加权求和,作为当前智能体的历史时空运动轨迹与样本轨迹之间的最终距离;
若所述最终距离小于设定的样本间距阈值,则聚为一类。


4.根据权利要求3中所述的对手策略反演方法,其特征在于,“当前智能体的时空运动轨迹与样本轨迹之间的最终距离”,其计算方法为:
dist(Li,Lj)=ω⊥.d⊥(Li,Lj)+ω||·d||(Li,Lj)+ωθ.dθ(Li,Lj)



d||=MIN(l||1,l||2)

【专利技术属性】
技术研发人员:范国梁
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1