面向高维扰动环境的小样本鲁棒模仿学习训练方法技术

技术编号：39752321 阅读：7 留言：0更新日期：2023-12-17 23:50

面向高维扰动环境的小样本鲁棒模仿学习训练方法

全部详细技术资料下载

【技术实现步骤摘要】
面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质

[0001]本专利技术属于机器人智能控制领域，具体涉及面向高维扰动环境的小样本鲁棒模仿学习训练方法
、
电子设备及存储介质
。

技术介绍

[0002]目前的模仿学习方法主要面向学习策略的环境与被提供的专家数据集的环境相同，因此当学习环境和专家环境之间存在细微差异时，许多模仿学习方法可能不起作用或产生较大的误差，特别是对于高维图像观测问题
。
而在现实世界中，很难从学习环境里获取精确的专家数据，收集到的数据往往存在视觉噪声
。
文章“Watch and Match:Supercharging Imitation with Regularized Optimal Transport”提出的正则化最优传输算法
(ROT
算法
)
，首先行为克隆预训练：行为克隆使用监督学习来获得一个策略，而行为克隆预训练对应求解一个最大似然问题，求解训练之后能够模拟出专家演示的对应动作，得到一个行为克隆策略；然后使用逆强化学习进行微调：给定预训练模型后，使用逆强化学习对学习策略进行微调
(
将学习策略和行为克隆损失相结合进行微调，而非直接微调行为克隆策略
)
然后使用最优传输：
ROT
算法使用最优运输进行奖励计算；然后加入正则化项：开发
soft Q
‑
filtering
自适应权重方案，可以自动设置正则化...

【技术保护点】

【技术特征摘要】
1.
一种面向高维扰动环境的小样本鲁棒模仿学习训练方法，其特征在于，包括如下步骤：
S1、
构建状态表示网络
φ
，采集
t
时间步的高维观测数据
o
t
，将采集的高维观测数据
o
t
输入到状态表示网络
φ
中，进行特征提取，输出状态嵌入特征；
S2、
构建逆动力学网络
f
θ
，将步骤
S1
得到的
t
时间步的状态嵌入特征
φ
(o
t
)
和
t+1
时间步的状态嵌入特征
φ
(o
t+1
)
输入到逆动力学网络
f
θ
(
φ
(o
t
)
，
φ
(o
t+1
))
中，输出为
t
时间步到
t+1
时间步的转换动作
S3、
构建策略网络
π
，策略网络
π
的输入为
t
时间步的状态嵌入特征
φ
(o
t
)
，输出为动作
a
t
；执行动作
a
t
后获得
t
时间步到
t+1
时间步的转换
(o
t
，
a
t
，
o
t+1
)
，并将
t
时间步到
t+1
时间步的转换加入到轨迹中；建立重放缓冲区
B
，用于暂存策略网络
π
获得的轨迹，以用于后续训练；
S4、
构建
Q
值函数网络，从重放缓冲区
B
中取出转换动作
a
t
输入到
Q
值函数网络中，用于估计
t
时间步的状态嵌入特征
φ
(o
t
)
下采取动作
a
t
所得到的价值
Q(
φ
(o
t
)
，
a
t
)
；
S5、
采用端到端的方式将步骤
S2
构建的逆动力学网络和步骤
S4
构建的
Q
值函数网络优化相结合，计算状态表示网络
φ
、
逆动力学网络
f
θ
和
Q
值函数网络
Q
的总损失；
S6、
生成模仿奖励，包括轨迹匹配奖励
、
鉴别器奖励，得到模仿奖励函数；
S7、
从重放缓冲区
B
中取出轨迹，通过步骤
S6
得到的模仿奖励函数求解模仿奖励；通过最小化状态表示网络
φ
、
逆动力学网络
f
θ
和
Q
值函数网络
Q
的总损失，学习状态表示网络
φ
、
逆动力学网络
f
θ
和
Q
值函数网络
Q
；重置环境获取下一时间步
t+1
时间步的高维观测
o
t+1
，重复步骤
S1
‑
S7
以优化状态表示网络
、
逆动力学网络
、Q
值函数网络
。2.
根据权利要求1所述的一种面向高维扰动环境的小样本鲁棒模仿学习训练方法，其特征在于：步骤
S1
初始化状态表示网络
φ
，状态表征网络的参数利用逆动力学网络的优化目标和
Q
学习的目标联合优化
。3.
根据权利要求1或2所述的一种面向高维扰动环境的小样本鲁棒模仿学习训练方法，其特征在于：步骤
S2
初始化逆动力学网络
f
θ
，利用随机梯度下降的方式更新逆动力学网络
f
θ
的损失函数，逆动力学网络
f
θ
的损失函数的计算公式为：其中，
L
inv
为逆动力学网络
f
θ
的损失函数，为时间步
t
的目标动作
。4.
根据权利要求3所述的一种面向高维扰动环境的小样本鲁棒模仿学习训练方法，其特征在于：步骤
S3
使用预训练的行为克隆策略
π
BC
初始化策略网络
π
，策略网络
π
采用最大化价值函数
Q
的目标和行为克隆正则化软约束的目标联合更新；用随机参数初始化鉴别器网络
D
，鉴别器网络
D
用于判别状态动作对是来自专家数据集的，还是智能体在环境中自主采集的，采用有监督的判别器损失优化判别器
D。5.

【专利技术属性】
技术研发人员：汪勋，李斯源，左镕畅，孙科武，杨皙睿，刘鹏，
申请(专利权)人：航天科工集团智能科技研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人