本发明专利技术属于人工智能技术领域,涉及一种面向水下攻防快速对手建模的交互策略优化方法
【技术实现步骤摘要】
面向水下攻防快速对手建模的交互策略优化方法
[0001]本专利技术属于人工智能
,具体涉及一种面向水下攻防快速对手建模的交互策略优化方法
。
技术介绍
[0002]水下战场向无人化
、
智能化发展,对水下作战攻防对抗的智能化提出要求
。
将双方参与对抗的
UUV、
鱼雷
、
潜艇等抽象为智能体,在智能体攻防对抗时,对对手智能体的策略进行建模和估计,有助于利用对手智能体的弱点取胜,称为“对手建模”。
现有对手建模方法包括策略重构
、
模式匹配
、
意图识别
、
在线学习等,在不同粒度上实现了对未知对手智能体的建模
。
[0003]在准确建模的前提下,对手建模的过程越快速,越能够优先建立水下攻防对抗优势
。
为此,部分研究针对快速对手建模展开,如论文
《
基于迁移学习的高效深度多智能体强化学习算法研究
》
提出了基于层次推理和贝叶斯策略重用技术的高效对手建模算法,达到了快速对手建模的效果
。
但是,新算法只是实现快速对手建模的一方面;无论采用何种对手建模的算法,由于对手建模的基础是与对手交互产生的数据,因而,能否实现快速对手建模还取决于是否能够选取合适的与对手交互的策略,以快速获取建模所需的数据
。
然而,这方面的相关理论与方法研究鲜见,因而目前对手建模有效数据获取效率较低,对手建模速度还有待进一步提升
。
有鉴于此,亟需提出一种交互策略优化方法,以优化水下攻防对抗中的对手建模速度
。
技术实现思路
[0004]针对相关技术中存在的不足之处,本专利技术提供一种面向水下攻防快速对手建模的交互策略优化方法,旨在从快速获取对手建模所需的数据角度出发,优化对手建模的交互策略,以提高我方智能体对手建模速度,进而为水下攻防对抗提供优势
。
[0005]本专利技术提供一种面向水下攻防快速对手建模的交互策略优化方法,包括以下步骤:
S1、
确定对手智能体的类型集合,;确定我方智能体的交互策略集合,;确定我方智能体对对手智能体状态的可能观测结果集合,;
S2、
确定对手智能体各类型的置信概率,,其中,;确定在对手智能体各类型和我方智能体采取的各交互策略下,我方智能体对对手智能体状态的可能观测结果的生成概率,,,其中,;;
S3、
根据式
(1)
‑
式
(2)
,计算不同交互策略下,对手智能体策略偏好类型的置信概率变化指数;其中,;
(1)
;,,
(2)
;
S4、
根据式
(3)
计算并选取我方智能体的最佳交互策略;
(3)
;
S5、
我方智能体采取最佳交互策略与对手智能体进行交互,采集并存储交互后我方智能体对对手智能体状态的观测结果,根据式
(4)
修正对手智能体类型的置信概率,将其记作;,
(4)
;
S6、
评估修正后的对手智能体类型的置信概率是否满足对手建模要求;若满足,则交互策略优化完成;若不满足,则利用修正后的对手智能体各类型的置信概率,重新执行步骤
S3
‑
S6。
[0006]在其中一些实施例中,步骤
S1
中,对手智能体的类型,包括激进型
、
保守型和中性型
。
[0007]在其中一些实施例中,步骤
S1
中,我方智能体的交互策略,包括接敌策略
、
等待策略和撤离策略
。
[0008]在其中一些实施例中,步骤
S1
中,我方智能体对对手智能体状态的可能观测结果,包括前进
、
后退和停止
。
[0009]在其中一些实施例中,步骤
S2
中,
。
[0010]在其中一些实施例中,步骤
S2
中,对手智能体各类型的置信概率和我方智能体对对手智能体状态的可能观测的生成概率均由先验知识给出
。
[0011]在其中一些实施例中,步骤
S6
中,对手建模要求为,修正后的对手智能体各类型中有一类型的置信概率
≥
预设置信概率
。
[0012]在其中一些实施例中,预设置信概率
。
[0013]基于上述技术方案,本专利技术实施例中的面向水下攻防快速对手建模的交互策略优化方法,有别于现有技术中从对手建模新算法角度入手提升对手建模速度,而是从快速获取对手建模所需的数据角度出发,优化对手建模的交互策略,改善了目前对手建模有效数据获取效率较低的问题,能够提高我方智能体对手建模速度,进而为水下攻防对抗提供优势
。
附图说明
[0014]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定
。
在附图中:图1为本专利技术的面向水下攻防快速对手建模的交互策略优化方法的流程图
。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对实施例中的技术方案进行清楚
、
完整的描述
。
显然,所描述的实施例仅仅是本专利技术的一部分实施例,而非全部的实施例
。
基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围
。
[0016]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通
。
对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义
。
[0017]如图1所示,本专利技术提供一种面向水下攻防快速对手建模的交互策略优化方法,包括以下步骤:
S1、
确定对手智能体的类型集合,,即集合中具有个元素;确定我方智能体的交互策略集合,,即集合中具有个元素;确定我方智能体对对手智能体状态的可能观测结果集合,,即集合中具有个元素
。
[0018]S2、
确定对手智能体各类型的置信概率,,其中,;确定在对手智能体各类型和我方智能体采取的各交互策略下,我方智能体对对手智能体状态的可能观测结果的生成概率,,,其中,;;本领域技术人员可以理解的是,生成概率的总数量为个
。
[0019]S3、
基于贝叶斯估计理论,根据式
(1)
‑
式
(本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
面向水下攻防快速对手建模的交互策略优化方法,其特征在于,包括以下步骤:
S1、
确定对手智能体的类型集合,;确定我方智能体的交互策略集合,;确定我方智能体对对手智能体状态的可能观测结果集合,;
S2、
确定对手智能体各类型的置信概率,,其中,;确定在对手智能体各类型和我方智能体采取的各交互策略下,我方智能体对对手智能体状态的可能观测结果的生成概率,,,其中,;;
S3、
根据式
(1)
‑
式
(2)
,计算不同交互策略下,对手智能体策略偏好类型的置信概率变化指数;其中,;
(1)
;,,
(2)
;
S4、
根据式
(3)
计算并选取我方智能体的最佳交互策略;
(3)
;
S5、
我方智能体采取最佳交互策略与对手智能体进行交互,采集并存储交互后我方智能体对对手智能体状态的观测结果,根据式
(4)
修正对手智能体类型的置信概率,将其记作;,
(4)
;
S6、
评估修正后的对手智能体类型的置信概率是否满足对手建模要求;若满足,则交互策略优化完成;若不满足,则利用修正后的对手智能体各类型的置信概率,重新执行步骤
S3
‑
S6。2....
【专利技术属性】
技术研发人员:魏旭飞,魏先利,刘子晓,
申请(专利权)人:崂山国家实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。