行为克隆方法、电子设备、存储介质和程序产品技术

技术编号:32534442 阅读:19 留言:0更新日期:2022-03-05 11:29
本发明专利技术提供一种行为克隆方法、电子设备、存储介质和程序产品,行为克隆方法,包括:确定当前状态向量序列和上一时刻决策序列,上一时刻决策序列包括上一时刻状态向量序列和上一时刻状态向量序列对应的动作向量;将当前状态向量序列和上一时刻决策序列输入行为克隆模型中,得到行为克隆模型输出的当前状态向量序列对应的预测动作向量;行为克隆模型基于当前状态向量序列与上一时刻状态向量序列的关联性,对当前状态向量序列进行预测动作向量的预测;行为克隆模型是基于相邻时刻的样本决策序列训练得到的。本申请旨在解决现有技术中行为克隆方法只能建立单个状态到动作的映射的关系,导致传统的行为克隆方法的学习性能较低的缺陷。缺陷。缺陷。

【技术实现步骤摘要】
行为克隆方法、电子设备、存储介质和程序产品


[0001]本专利技术涉及人工智能
,尤其涉及一种行为克隆方法、电 子设备、存储介质和程序产品。

技术介绍

[0002]行为克隆是模仿学习领域下的特定方法,近年来取得了很大的进 步,例如应用在模拟自动驾驶和机器人控制中。行为克隆智能体将示 教数据中的状态和专家动作作为训练数据,提取和学习特征知识,无 需和环境进行交互就能学习专家策略。
[0003]然而,传统的行为克隆方法只能建立单个状态到动作的映射的关 系。因此,传统的行为克隆方法的学习性能较低。

技术实现思路

[0004]本专利技术提供一种行为克隆方法、电子设备、存储介质和程序产品, 用以解决现有技术中行为克隆方法只能建立单个状态到动作的映射 的关系,因此传统的行为克隆方法的学习性能较低的缺陷,实现提高 行为克隆方法的学习性能。
[0005]本专利技术提供一种行为克隆方法,包括:
[0006]确定当前状态向量序列和上一时刻决策序列,所述上一时刻决策 序列包括上一时刻状态向量序列和所述上一时刻状态向量序列对应 的动作向量;
[0007]将所述当前状态向量序列和所述上一时刻决策序列输入行为克 隆模型中,得到所述行为克隆模型输出的当前状态向量序列对应的预 测动作向量;所述行为克隆模型基于所述当前状态向量序列与所述上 一时刻状态向量序列的关联性,对所述当前状态向量序列进行预测动 作向量的预测;
[0008]所述行为克隆模型是基于相邻时刻的样本决策序列训练得到的。/>[0009]根据本专利技术提供的一种行为克隆方法,所述行为克隆模型,包括:
[0010]编码层,用于基于所述当前状态向量序列和所述上一时刻状态向 量序列作为编码器的输入,通过所述编码器输出中间状态向量序列;
[0011]解码层,用于基于所述中间状态向量序列和所述上一时刻的动作 向量作为解码器的输入,通过所述解码器输出预测动作向量。
[0012]根据本专利技术提供的一种行为克隆方法,所述行为克隆方法还包括 对行为克隆模型进行训练,对行为克隆模型进行训练包括:
[0013]获取当前样本状态向量序列和上一时刻样本决策序列,所述样本 决策序列包括:上一时刻样本状态向量序列和上一时刻样本动作向量;
[0014]将所述当前样本状态向量序列和所述上一时刻样本状态向量序 列作为编码器的输入,通过所述编码器输出中间样本状态向量序列;
[0015]将所述中间样本状态向量序列和所述上一时刻样本动作向量作 为解码器的输入,通过所述解码器输出预测样本动作向量。
[0016]根据本专利技术提供的一种行为克隆方法,所述对行为克隆模型进行 训练还包括:
[0017]基于所述预测样本动作向量和当前样本动作向量构建交叉熵损 失函数,根据反向传播和梯度下降方法,更新所述编码器和所述解码 器的参数。
[0018]根据本专利技术提供的一种行为克隆方法,所述编码器包括多个依次 连接的第一自注意力模块,所述将所述当前样本状态向量序列和所述 上一时刻样本状态向量序列作为编码器的输入,通过所述编码器输出 中间样本状态向量序列包括:
[0019]构造各个所述第一自注意力模块输出的第一子中间向量序列;
[0020]将所述第一子中间向量序列和尾部的所述第一自注意力模块的 输入进行残差连接和层次正则化;将处理完成后的中间结果输入全连 接神经网络;
[0021]将所述全连接神经网络的输入和输出进行残差连接和层次正则 化,得到的输出结果为尾部的所述第一自注意力模块输出的中间样本 状态向量序列。
[0022]根据本专利技术提供的一种行为克隆方法,所述第一子中间向量序列 通过如下公式实现:
[0023]e=Concat(Attention(Q
t
‑1,V
t
‑1,K
t
‑1),Attention(Q
t
,V
t
,K
t
));
[0024][0025][0026][0027][0028][0029]其中,Concat为向量拼接操作,e为所述第一子中间向量序列, 所述第一子中间向量序列由Attention(Q
t
,V
t
,K
t
)和 Attention(Q
t
‑1,V
t
‑1,K
t
‑1)连接形成, n为状态中所包含的特征数;W
Q
为查询参数矩阵,W
k
为键值参数矩 阵,W
V
为权值参数矩阵;Q
t
为t时刻的查询矩阵,V
t
为t时刻的权值 矩阵,K
t
为t时刻的键值矩阵;Q
t
‑1为t

1时刻的查询矩阵,V
t
‑1为t

1 时刻的权值矩阵,K
t
‑1为t

1时刻的键值矩阵;s

t,1
为所述当前样本状 态向量序列;s

t

1,1
为所述上一时刻样本状态向量序列。
[0030]根据本专利技术提供的一种行为克隆方法,所述编码器包括多个依次 连接的第二自注意力模块,将所述中间样本状态向量序列和所述上一 时刻样本动作向量作为解码器的输入,通过所述解码器输出预测样本 动作向量包括:
[0031]构造各个所述第二自注意力模块输出的第二子中间向量序列;
[0032]将所述第二子中间向量序列经过残差连接和全连接神经网络处 理,得到隐藏层向量:
[0033]将所述隐藏层向量输入依次通过线性变换层和softmax计算得 到预测样本动作向量。
[0034]根据本专利技术提供的一种行为克隆方法,所述第二子中间向量序列 通过如下公式实现:
[0035][0036]其中,d为所述第二子中间向量序列,n为状态数,Q
t
、V
t
、K
t
的 定义如下:
[0037][0038][0039][0040]其中, Q
t
为t时刻的查询矩阵,V
t
为t时刻的权值矩阵,K
t
为t时刻的键值矩阵;是针对所述中间样本状态向量序列的查询参数矩阵,是针对a

t
‑1的查询参数矩阵,是针对所述中间样本状态向量序列的权值参数 矩阵,是针对a

t
‑1的权值参数矩阵,是针对所述中间样本状态 向量序列的键值参数矩阵,是针对a

t
‑1的键值参数矩阵;a

t
‑1为 所述上一时刻样本动作向量。
[0041]根据本专利技术提供的一种行为克隆方法,所述当前样本状态向量序 列s

t,i...

【技术保护点】

【技术特征摘要】
1.一种行为克隆方法,其特征在于,包括:确定当前状态向量序列和上一时刻决策序列,所述上一时刻决策序列包括上一时刻状态向量序列和所述上一时刻状态向量序列对应的动作向量;将所述当前状态向量序列和所述上一时刻决策序列输入行为克隆模型中,得到所述行为克隆模型输出的当前状态向量序列对应的预测动作向量;所述行为克隆模型基于所述当前状态向量序列与所述上一时刻状态向量序列的关联性,对所述当前状态向量序列进行预测动作向量的预测;所述行为克隆模型是基于相邻时刻的样本决策序列训练得到的。2.根据权利要求1所述的行为克隆方法,其特征在于,所述行为克隆模型,包括:编码层,用于基于所述当前状态向量序列和所述上一时刻状态向量序列作为编码器的输入,通过所述编码器输出中间状态向量序列;解码层,用于基于所述中间状态向量序列和所述上一时刻的动作向量作为解码器的输入,通过所述解码器输出预测动作向量。3.根据权利要求1所述的行为克隆方法,其特征在于,所述行为克隆方法还包括对行为克隆模型进行训练,对行为克隆模型进行训练包括:获取当前样本状态向量序列和上一时刻样本决策序列,所述样本决策序列包括:上一时刻样本状态向量序列和上一时刻样本动作向量;将所述当前样本状态向量序列和所述上一时刻样本状态向量序列作为编码器的输入,通过所述编码器输出中间样本状态向量序列;将所述中间样本状态向量序列和所述上一时刻样本动作向量作为解码器的输入,通过所述解码器输出预测样本动作向量。4.根据权利要求3所述的行为克隆方法,其特征在于,所述对行为克隆模型进行训练还包括:基于所述预测样本动作向量和当前样本动作向量构建交叉熵损失函数,根据反向传播和梯度下降方法,更新所述编码器和所述解码器的参数。5.根据权利要求3所述的行为克隆方法,其特征在于,所述编码器包括多个依次连接的第一自注意力模块,所述将所述当前样本状态向量序列和所述上一时刻样本状态向量序列作为编码器的输入,通过所述编码器输出中间样本状态向量序列包括:构造各个所述第一自注意力模块输出的第一子中间向量序列;将所述第一子中间向量序列和尾部的所述第一自注意力模块的输入进行残差连接和层次正则化;将处理完成后的中间结果输入全连接神经网络;将所述全连接神经网络的输入和输出进行残差连接和层次正则化,得到的输出结果为尾部的所述第一自注意力模块输出的中间样本状态向量序列;所述第一子中间向量序列通过如下公式实现:e=Concat(Attention(Q
t
‑1,V
t
‑1,K
t
‑1),Attention(Q
t
,V
t
,K
t
));
其中,Concat为向量拼接操作,e为所述第一子中间向量序列,所述第一子中间向量序列量由Attention(Q
t
,V
t
,K
t
)和Attention(Q
t
‑1,V
t
‑1,K
t
‑1)连接形成,n为状态中所包含的特征数;W
Q
为查询参数矩阵,W
K
为键值参数矩阵,W
V
为权值参数矩阵;Q
t
为t时刻的查询矩阵,V
t
为t时刻的权值矩阵,K
t
为t时刻的键值矩阵;Q
t
‑1为t

1时刻的查询矩阵,V
t
‑1为t

1时刻的权值矩阵,K
t
‑1为t

1时刻的键值矩阵;s

t,i
为所述当前样本状态向量序列;s

t

1,i
为所述上一时刻样本状态向量序列。6.根据权利要求3所述的行为克隆方法,其特征在于,所述编码器包括多个依次连接的第...

【专利技术属性】
技术研发人员:黄梓铭李小双王晓王飞跃
申请(专利权)人:国网浙江省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1