【技术实现步骤摘要】
一种面向混合行为空间的批约束离线强化学习算法
[0001]本专利技术涉及计算机生成兵力行为决策建模
,具体讲,涉及面向智能兵力对抗强化学习中基于离线强化学习的兵力混合行为空间决策建模
技术介绍
[0002]计算机技术是目前作战仿真研究的重要手段和有效途径。其中,计算机生成兵力技术(Computer Generated Forces,CGF)是军用仿真特别是分布交互作战仿真的重要支撑技术,其中人类的作战行为一直是CGF的研究热点。由于兵力仿真系统一般具有复杂的非线性和不确定性等特征,随着人工智能技术的迅猛发展和领域深化,基于强化学习技术进行CGF行为决策建模的方法成为当今热点研究方向。
[0003]然而,强化学习技术在兵力行为决策领域中的应用目前最主要的挑战是训练效率问题,其主要体现在以下几个方面:(1)强化学习的训练过程要进行大量的探索,本质上是试错的学习方法,核心思想是从已有的交互经验中高效稳定地优化策略,趋近任务目标。在复杂兵力决策任务中,须要与仿真环境进行成千上万轮的完整交互,才能训练得到较优策 ...
【技术保护点】
【技术特征摘要】
1.一种面向混合行为空间的批约束离线强化学习算法,其特征在于,包括如下步骤:S1,针对混合行为空间的特点,设计一个离散生成器网络和一个连续生成器网络两个生成器网络在前向推理时共享一个状态向量作为输入,输入层宽度都为所述状态向量的维度,所述两个生成器网络用于在特定状态下联合生成一个参数化动作,其中,通过多轮训练保证联合生成的所述参数化动作与预设离散数据集在所述特定状态下对应动作的相似性;S2,设置一个驱动器网络ξ
Φ
,所述驱动器网络用于与所述离散生成器网络或所述连续生成器网络联合组成策略模型,所述策略模型用于输出最终的参数化行为策略,其中,所述驱动器网络输入层和输出层宽度相同,所述驱动器网络对所述两个生成器网络的联合输出进行二次表征,并驱动生成新的参数化向量;S3,设置两个Critic网络和用于估计所述S1两个生成器网络和所述S2驱动器网络联合构成的强化学习Actor网络输出的参数化向量的价值,所述两个Critic网络的结构相同,且输入层宽度等于所述驱动器网络的输出层宽度和所述状态向量维度之和,所述两个Critic网络各输出一个标量值q,所述q作为当前时间步上参数化向量的价值估计。2.根据权利要求1所述的方法,其特征在于,所述S1包括:准备离线数据集其中,所述离线数据集由预设算法策略与环境交互所形成的“状态—行为—奖励—新状态”短序列(s,a,r,s
′
)构成,其中行为a是参数化动作;按照预先配置信息配置离线训练的一个或多个参数,初始化两个Actor网络初始化两个Critic网络初始化一个扰动网络ξ
Φ
,并对所述Actor网络、Critic网络和扰动网络进行k轮训练,其中,所述k为预设值;从离线数据集随机抽取N个“状态—行为—奖励—新状态”短序列(s,a,r,s
′
),将所述短序列中的状态向量s输入所述两个生成器网络进行前向计算;更新离散生成器网络及连续生成器网络的参数值。3.根据权利要求2所述的方法,其特征在于,所述S1具体流程包括:S1
‑
1:准备有奖励信息的离线数据集所述离线数据集由预设算法策略与环境交互所形成的“状态—行为—奖励—新状态”短序列(s,a,r,s
′
)构成,其中行为a是参数化动作;S1
‑
2:设置离线训练时小批量样本的大小N,设置驱动器网络参数更新率α,设置Critic网络参数更新率τ,设置Critic网络综合权重λ,设置离线强化学习训练的迭代轮数T;S1
‑
3:初始化两个Actor网络初始化两个Critic网络初始化一个扰动网络ξ
Φ
;S1
‑
4:进行第k轮训练,训练完成后执行k=k+1;S1
‑
5:从离线数据集随机抽取N个“状态—行为—奖励—新状态”短序列(s,a,r,s
′
);S1
‑
6:将短序列中的状态向量s输入所述两个生成器网络,其中,所述离散生成器网络由编码器E和解码器D组成,由自变分编码器VAE模型实现,所述编码器E的输入是当前状态向量s和离散行为a
d
,输出是表征离散行为的分布其均值为μ,方差为σ;所述解码器D的输入是当前状态向量s和分布输出是根据此分布抽样得到的动作此动作为当前状态下的离散动作部分;
所述离散生成器网络按下式进行前向计算:所述离散生成器网络按下式进行前向计算:所述离散生成器网络按下式进行前向计算:其中,softmax(
·
)表示对网络输出进行softmax操作,将输入转换为输出的概率值;sample(a)表示按照每个离散动作的概率值进行随机抽样;表示在连续生成器网络输出的所有离散动作的参数值组成的向量中取对应于动作的子向量;其中,与数据集中对应的参数化行为中的离散动作相似的动作记为第一动作,所述离散生成器网络用于在生成特定状态s下,为所述第一动作选择的分布概率,所述离散生成器网络输出层宽度是k,所述k是可选离散动作的个数,所述k等于离散动作空间的维度,网络的每个输出f
a1
,f
a2
,
…
,f
ak
对应k个离散动作,通过对输出层施加softmax(f)操作,将k个网...
【专利技术属性】
技术研发人员:李妮,董力维,韩宏伟,龚光红,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。