行为克隆方法、电子设备、存储介质和程序产品技术

技术编号：32534442 阅读：19 留言：0更新日期：2022-03-05 11:29

本发明专利技术提供一种行为克隆方法、电子设备、存储介质和程序产品，行为克隆方法，包括：确定当前状态向量序列和上一时刻决策序列，上一时刻决策序列包括上一时刻状态向量序列和上一时刻状态向量序列对应的动作向量；将当前状态向量序列和上一时刻决策序列输入行为克隆模型中，得到行为克隆模型输出的当前状态向量序列对应的预测动作向量；行为克隆模型基于当前状态向量序列与上一时刻状态向量序列的关联性，对当前状态向量序列进行预测动作向量的预测；行为克隆模型是基于相邻时刻的样本决策序列训练得到的。本申请旨在解决现有技术中行为克隆方法只能建立单个状态到动作的映射的关系，导致传统的行为克隆方法的学习性能较低的缺陷。缺陷。缺陷。

全部详细技术资料下载

【技术实现步骤摘要】
行为克隆方法、电子设备、存储介质和程序产品

[0001]本专利技术涉及人工智能
，尤其涉及一种行为克隆方法、电子设备、存储介质和程序产品。

技术介绍

[0002]行为克隆是模仿学习领域下的特定方法，近年来取得了很大的进步，例如应用在模拟自动驾驶和机器人控制中。行为克隆智能体将示教数据中的状态和专家动作作为训练数据，提取和学习特征知识，无需和环境进行交互就能学习专家策略。
[0003]然而，传统的行为克隆方法只能建立单个状态到动作的映射的关系。因此，传统的行为克隆方法的学习性能较低。

技术实现思路

[0004]本专利技术提供一种行为克隆方法、电子设备、存储介质和程序产品，用以解决现有技术中行为克隆方法只能建立单个状态到动作的映射的关系，因此传统的行为克隆方法的学习性能较低的缺陷，实现提高行为克隆方法的学习性能。
[0005]本专利技术提供一种行为克隆方法，包括：
[0006]确定当前状态向量序列和上一时刻决策序列，所述上一时刻决策序列包括上一时刻状态向量序列和所述上一时刻状态向量序列对应的动作向量；
[0007]将所述当前状态向量序列和所述上一时刻决策序列输入行为克隆模型中，得到所述行为克隆模型输出的当前状态向量序列对应的预测动作向量；所述行为克隆模型基于所述当前状态向量序列与所述上一时刻状态向量序列的关联性，对所述当前状态向量序列进行预测动作向量的预测；
[0008]所述行为克隆模型是基于相邻时刻的样本决策序列训练得到的。/>[0009]根据本专利技术提供的一种行为克隆方法，所述行为克隆模型，包括：
[0010]编码层，用于基于所述当前状态向量序列和所述上一时刻状态向量序列作为编码器的输入，通过所述编码器输出中间状态向量序列；
[0011]解码层，用于基于所述中间状态向量序列和所述上一时刻的动作向量作为解码器的输入，通过所述解码器输出预测动作向量。
[0012]根据本专利技术提供的一种行为克隆方法，所述行为克隆方法还包括对行为克隆模型进行训练，对行为克隆模型进行训练包括:
[0013]获取当前样本状态向量序列和上一时刻样本决策序列，所述样本决策序列包括：上一时刻样本状态向量序列和上一时刻样本动作向量；
[0014]将所述当前样本状态向量序列和所述上一时刻样本状态向量序列作为编码器的输入，通过所述编码器输出中间样本状态向量序列；
[0015]将所述中间样本状态向量序列和所述上一时刻样本动作向量作为解码器的输入，通过所述解码器输出预测样本动作向量。
[0016]根据本专利技术提供的一种行为克隆方法，所述对行为克隆模型进行训练还包括：
[0017]基于所述预测样本动作向量和当前样本动作向量构建交叉熵损失函数，根据反向传播和梯度下降方法，更新所述编码器和所述解码器的参数。
[0018]根据本专利技术提供的一种行为克隆方法，所述编码器包括多个依次连接的第一自注意力模块，所述将所述当前样本状态向量序列和所述上一时刻样本状态向量序列作为编码器的输入，通过所述编码器输出中间样本状态向量序列包括：
[0019]构造各个所述第一自注意力模块输出的第一子中间向量序列；
[0020]将所述第一子中间向量序列和尾部的所述第一自注意力模块的输入进行残差连接和层次正则化；将处理完成后的中间结果输入全连接神经网络；
[0021]将所述全连接神经网络的输入和输出进行残差连接和层次正则化，得到的输出结果为尾部的所述第一自注意力模块输出的中间样本状态向量序列。
[0022]根据本专利技术提供的一种行为克隆方法，所述第一子中间向量序列通过如下公式实现：
[0023]e＝Concat(Attention(Q
t
‑1，V
t
‑1，K
t
‑1)，Attention(Q
t
，V
t
，K
t
))；
[0024][0025][0026][0027][0028][0029]其中，Concat为向量拼接操作，e为所述第一子中间向量序列，所述第一子中间向量序列由Attention(Q
t
,V
t
,K
t
)和 Attention(Q
t
‑1,V
t
‑1,K
t
‑1)连接形成， n为状态中所包含的特征数；W
Q
为查询参数矩阵，W
k
为键值参数矩阵，W
V
为权值参数矩阵；Q
t
为t时刻的查询矩阵，V
t
为t时刻的权值矩阵，K
t
为t时刻的键值矩阵；Q
t
‑1为t
‑
1时刻的查询矩阵，V
t
‑1为t
‑
1 时刻的权值矩阵，K
t
‑1为t
‑
1时刻的键值矩阵；s
′
t,1
为所述当前样本状态向量序列；s
′
t
‑
1,1
为所述上一时刻样本状态向量序列。
[0030]根据本专利技术提供的一种行为克隆方法，所述编码器包括多个依次连接的第二自注意力模块，将所述中间样本状态向量序列和所述上一时刻样本动作向量作为解码器的输入，通过所述解码器输出预测样本动作向量包括：
[0031]构造各个所述第二自注意力模块输出的第二子中间向量序列；
[0032]将所述第二子中间向量序列经过残差连接和全连接神经网络处理，得到隐藏层向量：
[0033]将所述隐藏层向量输入依次通过线性变换层和softmax计算得到预测样本动作向量。
[0034]根据本专利技术提供的一种行为克隆方法，所述第二子中间向量序列通过如下公式实现：
[0035][0036]其中，d为所述第二子中间向量序列，n为状态数，Q
t
、V
t
、K
t
的定义如下：
[0037][0038][0039][0040]其中， Q
t
为t时刻的查询矩阵，V
t
为t时刻的权值矩阵，K
t
为t时刻的键值矩阵；是针对所述中间样本状态向量序列的查询参数矩阵，是针对a
′
t
‑1的查询参数矩阵，是针对所述中间样本状态向量序列的权值参数矩阵，是针对a
′
t
‑1的权值参数矩阵，是针对所述中间样本状态向量序列的键值参数矩阵，是针对a
′
t
‑1的键值参数矩阵；a
′
t
‑1为所述上一时刻样本动作向量。
[0041]根据本专利技术提供的一种行为克隆方法，所述当前样本状态向量序列s
′
t,i...

【技术保护点】

【技术特征摘要】
1.一种行为克隆方法，其特征在于，包括：确定当前状态向量序列和上一时刻决策序列，所述上一时刻决策序列包括上一时刻状态向量序列和所述上一时刻状态向量序列对应的动作向量；将所述当前状态向量序列和所述上一时刻决策序列输入行为克隆模型中，得到所述行为克隆模型输出的当前状态向量序列对应的预测动作向量；所述行为克隆模型基于所述当前状态向量序列与所述上一时刻状态向量序列的关联性，对所述当前状态向量序列进行预测动作向量的预测；所述行为克隆模型是基于相邻时刻的样本决策序列训练得到的。2.根据权利要求1所述的行为克隆方法，其特征在于，所述行为克隆模型，包括：编码层，用于基于所述当前状态向量序列和所述上一时刻状态向量序列作为编码器的输入，通过所述编码器输出中间状态向量序列；解码层，用于基于所述中间状态向量序列和所述上一时刻的动作向量作为解码器的输入，通过所述解码器输出预测动作向量。3.根据权利要求1所述的行为克隆方法，其特征在于，所述行为克隆方法还包括对行为克隆模型进行训练，对行为克隆模型进行训练包括:获取当前样本状态向量序列和上一时刻样本决策序列，所述样本决策序列包括：上一时刻样本状态向量序列和上一时刻样本动作向量；将所述当前样本状态向量序列和所述上一时刻样本状态向量序列作为编码器的输入，通过所述编码器输出中间样本状态向量序列；将所述中间样本状态向量序列和所述上一时刻样本动作向量作为解码器的输入，通过所述解码器输出预测样本动作向量。4.根据权利要求3所述的行为克隆方法，其特征在于，所述对行为克隆模型进行训练还包括：基于所述预测样本动作向量和当前样本动作向量构建交叉熵损失函数，根据反向传播和梯度下降方法，更新所述编码器和所述解码器的参数。5.根据权利要求3所述的行为克隆方法，其特征在于，所述编码器包括多个依次连接的第一自注意力模块，所述将所述当前样本状态向量序列和所述上一时刻样本状态向量序列作为编码器的输入，通过所述编码器输出中间样本状态向量序列包括：构造各个所述第一自注意力模块输出的第一子中间向量序列；将所述第一子中间向量序列和尾部的所述第一自注意力模块的输入进行残差连接和层次正则化；将处理完成后的中间结果输入全连接神经网络；将所述全连接神经网络的输入和输出进行残差连接和层次正则化，得到的输出结果为尾部的所述第一自注意力模块输出的中间样本状态向量序列；所述第一子中间向量序列通过如下公式实现：e＝Concat(Attention(Q
t
‑1，V
t
‑1，K
t
‑1)，Attention(Q
t
，V
t
，K
t
))；
其中，Concat为向量拼接操作，e为所述第一子中间向量序列，所述第一子中间向量序列量由Attention(Q
t
，V
t
，K
t
)和Attention(Q
t
‑1，V
t
‑1，K
t
‑1)连接形成，n为状态中所包含的特征数；W
Q
为查询参数矩阵，W
K
为键值参数矩阵，W
V
为权值参数矩阵；Q
t
为t时刻的查询矩阵，V
t
为t时刻的权值矩阵，K
t
为t时刻的键值矩阵；Q
t
‑1为t
‑
1时刻的查询矩阵，V
t
‑1为t
‑
1时刻的权值矩阵，K
t
‑1为t
‑
1时刻的键值矩阵；s
′
t，i
为所述当前样本状态向量序列；s
′
t
‑
1，i
为所述上一时刻样本状态向量序列。6.根据权利要求3所述的行为克隆方法，其特征在于，所述编码器包括多个依次连接的第...

【专利技术属性】
技术研发人员：黄梓铭，李小双，王晓，王飞跃，
申请(专利权)人：国网浙江省电力有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人