面向高维扰动环境的小样本鲁棒模仿学习训练方法技术

技术编号:39752321 阅读:7 留言:0更新日期:2023-12-17 23:50
面向高维扰动环境的小样本鲁棒模仿学习训练方法

【技术实现步骤摘要】
面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质


[0001]本专利技术属于机器人智能控制领域,具体涉及面向高维扰动环境的小样本鲁棒模仿学习训练方法

电子设备及存储介质


技术介绍

[0002]目前的模仿学习方法主要面向学习策略的环境与被提供的专家数据集的环境相同,因此当学习环境和专家环境之间存在细微差异时,许多模仿学习方法可能不起作用或产生较大的误差,特别是对于高维图像观测问题

而在现实世界中,很难从学习环境里获取精确的专家数据,收集到的数据往往存在视觉噪声

文章“Watch and Match:Supercharging Imitation with Regularized Optimal Transport”提出的正则化最优传输算法
(ROT
算法
)
,首先行为克隆预训练:行为克隆使用监督学习来获得一个策略,而行为克隆预训练对应求解一个最大似然问题,求解训练之后能够模拟出专家演示的对应动作,得到一个行为克隆策略;然后使用逆强化学习进行微调:给定预训练模型后,使用逆强化学习对学习策略进行微调
(
将学习策略和行为克隆损失相结合进行微调,而非直接微调行为克隆策略
)
然后使用最优传输:
ROT
算法使用最优运输进行奖励计算;然后加入正则化项:开发
soft Q

filtering
自适应权重方案,可以自动设置正则化,即优先考虑在训练开始时紧跟行为克隆策略,并优先考虑随后的轨迹,以控制轨迹之间的相似性,从而使得算法更加鲁棒

通过上述技术,
ROT
算法提升了模仿学习的速度

性能和鲁棒性

目前的模仿学习方法主要面向学习策略的环境与被提供的专家数据集的环境相同,但是没有考虑学习环境受到视觉噪声的干扰的问题


技术实现思路

[0003]本专利技术要解决的问题是考虑了模仿学习方法主要面向学习策略的环境与被提供的专家数据集的环境不同时为了提高模拟的准确性,提出面向高维扰动环境的小样本鲁棒模仿学习训练方法

电子设备及存储介质

[0004]为实现上述目的,本专利技术通过以下技术方案实现:
[0005]一种面向高维扰动环境的小样本鲁棒模仿学习训练方法,包括如下步骤:
[0006]一种面向高维扰动环境的小样本鲁棒模仿学习训练方法,包括如下步骤:
[0007]S1、
构建状态表示网络
φ
,采集
t
时间步的高维观测数据
o
t
,将采集的高维观测数据
o
t
输入到状态表示网络
φ
中,进行特征提取,输出状态嵌入特征;
[0008]S2、
构建逆动力学网络
f
θ
,将步骤
S1
得到的
t
时间步的状态嵌入特征
φ
(o
t
)

t+1
时间步的状态嵌入特征
φ
(o
t+1
)
输入到逆动力学网络
f
θ
(
φ
(o
t
),
φ
(o
t+1
))
中,输出为
t
时间步到
t+1
时间步的转换动作
[0009]S3、
构建策略网络
π
,策略网络
π
的输入为
t
时间步的状态嵌入特征
φ
(o
t
)
,输出为动作
a
t
;执行动作
a
t
后获得
t
时间步到
t+1
时间步的转换
(o
t
,a
t
,o
t+1
)
,并将
t
时间步到
t+1

间步的转换加入到轨迹中;建立重放缓冲区
B
,用于暂存策略网络
π
获得的轨迹,以用于后续训练;
[0010]S4、
构建
Q
值函数网络,从重放缓冲区
B
中取出转换动作
a
t
输入到
Q
值函数网络中,用于估计
t
时间步的状态嵌入特征
φ
(o
t
)
下采取动作
a
t
所得到的价值
Q(
φ
(o
t
),a
t
)

[0011]S5、
采用端到端的方式将步骤
S2
构建的逆动力学网络和步骤
S4
构建的
Q
值函数网络优化相结合,计算状态表示网络
φ

逆动力学网络
f
θ

Q
值函数网络
Q
的总损失;
[0012]S6、
生成模仿奖励,包括轨迹匹配奖励

鉴别器奖励,得到模仿奖励函数;
[0013]S7、
从重放缓冲区
B
中取出轨迹,通过步骤
S6
得到的模仿奖励函数求解模仿奖励;通过最小化状态表示网络
φ

逆动力学网络
f
θ

Q
值函数网络
Q
的总损失,学习状态表示网络
φ

逆动力学网络
f
θ

Q
值函数网络
Q
;重置环境获取下一时间步
t+1
时间步的高维观测
o
t+1
,重复步骤
S1

S7
以优化状态表示网络

逆动力学网络
、Q
值函数网络

[0014]进一步的,步骤
S1
初始化状态表示网络
φ
,状态表征网络的参数利用逆动力学网络的优化目标和
Q
学习的目标联合优化

[0015]进一步的,步骤
S2
初始化逆动力学网络
f
θ
,利用随机梯度下降的方式更新逆动力学网络
f
θ
的损失函数,逆动力学网络
f
θ
的损失函数的计算公式为:
[0016][0017]其中,
L本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向高维扰动环境的小样本鲁棒模仿学习训练方法,其特征在于,包括如下步骤:
S1、
构建状态表示网络
φ
,采集
t
时间步的高维观测数据
o
t
,将采集的高维观测数据
o
t
输入到状态表示网络
φ
中,进行特征提取,输出状态嵌入特征;
S2、
构建逆动力学网络
f
θ
,将步骤
S1
得到的
t
时间步的状态嵌入特征
φ
(o
t
)

t+1
时间步的状态嵌入特征
φ
(o
t+1
)
输入到逆动力学网络
f
θ
(
φ
(o
t
)

φ
(o
t+1
))
中,输出为
t
时间步到
t+1
时间步的转换动作
S3、
构建策略网络
π
,策略网络
π
的输入为
t
时间步的状态嵌入特征
φ
(o
t
)
,输出为动作
a
t
;执行动作
a
t
后获得
t
时间步到
t+1
时间步的转换
(o
t

a
t

o
t+1
)
,并将
t
时间步到
t+1
时间步的转换加入到轨迹中;建立重放缓冲区
B
,用于暂存策略网络
π
获得的轨迹,以用于后续训练;
S4、
构建
Q
值函数网络,从重放缓冲区
B
中取出转换动作
a
t
输入到
Q
值函数网络中,用于估计
t
时间步的状态嵌入特征
φ
(o
t
)
下采取动作
a
t
所得到的价值
Q(
φ
(o
t
)

a
t
)

S5、
采用端到端的方式将步骤
S2
构建的逆动力学网络和步骤
S4
构建的
Q
值函数网络优化相结合,计算状态表示网络
φ

逆动力学网络
f
θ

Q
值函数网络
Q
的总损失;
S6、
生成模仿奖励,包括轨迹匹配奖励

鉴别器奖励,得到模仿奖励函数;
S7、
从重放缓冲区
B
中取出轨迹,通过步骤
S6
得到的模仿奖励函数求解模仿奖励;通过最小化状态表示网络
φ

逆动力学网络
f
θ

Q
值函数网络
Q
的总损失,学习状态表示网络
φ

逆动力学网络
f
θ

Q
值函数网络
Q
;重置环境获取下一时间步
t+1
时间步的高维观测
o
t+1
,重复步骤
S1

S7
以优化状态表示网络

逆动力学网络
、Q
值函数网络
。2.
根据权利要求1所述的一种面向高维扰动环境的小样本鲁棒模仿学习训练方法,其特征在于:步骤
S1
初始化状态表示网络
φ
,状态表征网络的参数利用逆动力学网络的优化目标和
Q
学习的目标联合优化
。3.
根据权利要求1或2所述的一种面向高维扰动环境的小样本鲁棒模仿学习训练方法,其特征在于:步骤
S2
初始化逆动力学网络
f
θ
,利用随机梯度下降的方式更新逆动力学网络
f
θ
的损失函数,逆动力学网络
f
θ
的损失函数的计算公式为:其中,
L
inv
为逆动力学网络
f
θ
的损失函数,为时间步
t
的目标动作
。4.
根据权利要求3所述的一种面向高维扰动环境的小样本鲁棒模仿学习训练方法,其特征在于:步骤
S3
使用预训练的行为克隆策略
π
BC
初始化策略网络
π
,策略网络
π
采用最大化价值函数
Q
的目标和行为克隆正则化软约束的目标联合更新;用随机参数初始化鉴别器网络
D
,鉴别器网络
D
用于判别状态动作对是来自专家数据集的,还是智能体在环境中自主采集的,采用有监督的判别器损失优化判别器
D。5.

【专利技术属性】
技术研发人员:汪勋李斯源左镕畅孙科武杨皙睿刘鹏
申请(专利权)人:航天科工集团智能科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1