【技术实现步骤摘要】
基于数据降维技术的机器人强化学习运动控制方法
[0001]本专利技术涉及安全强化
,具体涉及一种基于数据降维技术的机器人强化学习运动控制方法。
技术介绍
[0002]近年来,强化学习和深度学习方法虽然在机器人系统控制中取得了显著的成效,但是现有的技术大部分需要在仿真中实现,在真实物理世界中的应用非常有限。一方面是因为强化学习方法的固有试错机制,导致机器人探索到危险的中间策略;另一方面,由于物理仿真引擎和现实物理世界之间的差异难以被度量,仿真中训练良好的策略移植到实机后并不匹配。上述两种情况不可避免地引出安全保障的现实问题。由于安全保障可以降低对机器人自身的损耗以及对周围环境的物理伤害,减少成本,因此,需要安全强化学习技术来保障机器人运动控制的安全。
[0003]现有的安全强化学习有通过对强化学习算法进行调整,增加额外的风险项或限制探索过程来实现安全约束的方法,但是这种方法需要对机器人模型以及环境信息有一个完备的先验。此外,目前关于安全区域设置的技术手段有结合控制理论,设计李雅普诺夫障碍函数得到确切的安全区域,但 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于数据降维技术的机器人强化学习运动控制方法,包括以下步骤:步骤A:采集机器人kt个非平衡点初始状态x
init
,得到具有高维空间的机器人初始运动轨迹样本集合D
init
={D1,D2,...,D
i
,...,D
kt
},其中D
i
为第i个机器人运动轨迹样本,kt为D
init
的大小,Φ(t,x
iinit
)表示采用矫正控制器K(x)对随机给定的机器人初始状态x
iinit
进行控制后的机器人运动轨迹,l(x
iinit
)是安全标签;步骤B:用动态时间规整算法对合并数据集合D
t
中的运动轨迹之间的距离度量ω
ij
进行计算,未得到反馈运动轨迹样本集合D
feedback
时合并数据集合D
t
中仅存在D
init
;距离度量ω
ij
的计算方式为:ω
ij
=ω(x
i
,x
j
)=DTW(Φ(x
i
),Φ(x
j
)),同时对距离度量进行归一化得到距离矩阵Ω;x
i
、x
j
分别表示合并数据集合D
t
中第i条、第j条轨迹的初始状态,在D
init
中为x
iinit
、x
jinit
,在D
feedbac
k中为x
ifeedback
、x
jfeedback
;DTW(
·
)表示动态时间规整算法;步骤C:通过距离矩阵Ω以及度量学习方法,在保持高维空间和低维空间之间的距离度量关系的情况下,将合并数据集合D
t
中的初始状态x
i
即原始高维状态空间中的状态进行降维处理,映射到低维状态得到与高维状态点集X={x1,x2,...}一一对应的低维状态点集n是高维空间维度,m是低维空间维度;步骤D:采用多项式回归方法训练回归学习器得到高维空间和低维空间的映射关系x
s
=f
l
(x),其中上标l代表构建映射的次数;回归误差ε服从经验分布,依次求解ε的置信区间,得到预测的区间估计其中1
‑
α表示置信水平;表示回归得到的点估计,统一记为x
s
,x1,x2,...统一记为x;步骤E:根据当前状态的区间估计的安全概率得到安全的置信度,能够预测机器人当前状态是否安全,得到估计的安全区域D;若判断当前状态为安全,对机器人的强化学习运动控制策略π(x)进行训练;若判断当前状态为不安全,启用矫正控制器K(x),将机器人状态控制回安全区域内,并收集轨迹信息,得到反馈运动轨迹样本集合D
feedback
={D1,D2,...,D
i
,...,D
kf
},其中,kf为反馈运动轨迹样本集合D
feedback
的大小,D
i
={x
ifeedback
,Φ(t,x
ifeedback
),l(x
ifeedback
)},x
ifeedback
是真实训练环境的机器人当前状态,Φ(t,x
ifeedback
)表示采用矫正控制器K(x)对x
ifeedback
进行控制后的机器人运动轨迹,l(x
ifeedback
)是安全标签;步骤F:判断反馈运动轨迹样本集合D
feedback
的大小,当kf=k*ku时,将反馈运动轨迹样本集合D
feedback
和初始运动轨迹样本集合D
init
合并,得到合并数据集合D
t
={D
init
,D
feedback
技术研发人员:秦家虎,虞健兰,刘轻尘,韩睿天,李曼,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。