一种基于生成对抗模仿学习的操作人员运动技能训练方法技术

技术编号:33560928 阅读:11 留言:0更新日期:2022-05-26 22:58
本发明专利技术公开了一种基于生成对抗模仿学习的操作人员运动技能训练方法,基于一专家在环的遥操作训练框架,所述专家在环的遥操作训练框架包括专家和学员,通过在学员端施加引导力,在遥操作设备上模拟出专家对学员教导;在所述专家在环的遥操作训练框架中引入一训练者,所述训练者用于采用生成对抗模仿学习对其操作进行模仿;其中,训练过程包括以下步骤:步骤一、建立学员训练数据库;步骤二、基于训练数据库训练智能体来模拟操作员的行为;步骤三、基于训练好的智能体,设计学员运动技能训练方法。其解决了遥操作任务中操作人员技能水平提升较慢的问题。升较慢的问题。升较慢的问题。

【技术实现步骤摘要】
一种基于生成对抗模仿学习的操作人员运动技能训练方法


[0001]本专利技术属于技能训练领域,具体涉及一种基于生成对抗模仿学习的操作人员运动技能训练方法。

技术介绍

[0002]随着遥操作技术的发展,基于遥操作开发出的产品在医疗等领域获得了广泛应用。但此类设备需要较高的技能水平才能掌握,技能水平不足的操作员在操作时容易出现事故,因此需要针对新手操作员精心设计学习策略。2018年Mahya Shahbazi提出了专家在环的遥操作训练框架,允许专家在操纵控制台完成实际任务的同时训练学员,且能够保证系统的稳定性和安全性。但G.Ganesh指出,双向触觉反馈是提高技能水平的关键因素,与水平相当的同伴进行互动比与专家的进行互动能更快地提高技能水平。Mahya Shahbazi的框架仅在学员端施加触觉反馈,无法实现学员与专家的双向互动。但如果在此框架上添加专家端的触觉反馈,可能会威胁到系统的安全性。

技术实现思路

[0003]本专利技术的目的是提供一种基于生成对抗模仿学习的操作人员运动技能训练方法,以解决遥操作任务中操作人员技能水平提升较慢的问题。
[0004]本专利技术采用以下技术方案:一种基于生成对抗模仿学习的操作人员运动技能训练方法,基于一专家在环的遥操作训练框架,所述专家在环的遥操作训练框架包括专家和学员,通过在学员端施加引导力,在遥操作设备上模拟出专家对学员教导;在所述专家在环的遥操作训练框架中引入一训练者,所述训练者用于采用生成对抗模仿学习对其操作进行模仿;
[0005]其中,训练过程包括以下步骤:
[0006]步骤一、建立学员训练数据库;
[0007]步骤二、基于训练数据库训练智能体来模拟操作员的行为;
[0008]步骤三、基于训练好的智能体,设计学员运动技能训练方法。
[0009]进一步的,步骤一建立学员训练数据库的具体方法为:
[0010]所述训练者和所述学员共同在Mahya Shahbazi的框架下操作,均受到引导力作用,期间收集操作员轨迹x
m
、学员轨迹x
t
、正确轨迹x
e
和引导刚度k形成学员训练数据库。
[0011]进一步的,步骤二基于训练数据库训练智能体来模拟操作员的行为的具体方法为:
[0012]对步骤一中得到的学员训练数据库进行处理,得到操作员轨迹和正确轨迹的差值Δ
me
(t)=x
m
(t)

x
e
(t),操作员轨迹和学员轨迹的差值Δ
mt
(t)=x
m
(t)

x
t
(t);令状态st=(Δmt(t),k(t)),动作at=Δme(t);
[0013]将所述学员训练数据库中处理好的状态

动作对作为专家样本τ
E
,利用基于变分自编码器的生成对抗模仿学习训练框架进行训练;最终得到可以模仿操作员行为的策略π,
该策略可以根据状态s
t
生成动作a
t

[0014]进一步的,步骤三的具体方法为:
[0015]最终训练阶段,专家端轨迹为x
E
(t),学员端轨迹为x
T
(t),虚拟操作员轨迹为x
M
(t),虚拟操作员轨迹由步骤二中得到的操作员行为策略π计算得到;
[0016]虚拟操作员轨迹和学员轨迹的差值Δ
MT
(t)=x
M
(t)

x
T
(t),则:
[0017]x
M
(t)=π(Δ
MT
(t

1),k(t

1))+x
E
(t

1)
[0018]=π((x
M
(t

1)

x
T
(t

1)),k(t

1))+x
E
(t

1)
[0019]训练过程中仅在学员端施加引导力学员受到的引导力表示为f(t)=k(t)(xM(t)

xT(t));其余与Mahya Shahbazi的框架相同。
[0020]本专利技术的有益效果是:该方法在Mahya Shahbazi的框架基础上另引入一训练者,采用生成对抗模仿学习对该训练者进行模仿,使得在专家进行操作任务的同时,学员可以与训练者智能体进行双向交互,更快地提升学员技能水平,且不危及系统安全性。
附图说明
[0021]图1为本专利技术一种基于生成对抗模仿学习的操作人员运动技能训练方法的建立学员数据库时的数据收集框架的结构示意图;
[0022]图2为本专利技术一种基于生成对抗模仿学习的操作人员运动技能训练方法的基于变分自编码器的生成对抗模仿学习训练框架的结构示意图;
[0023]图3为本专利技术一种基于生成对抗模仿学习的操作人员运动技能训练方法的学员运动技能训练框架的结构示意图。
具体实施方式
[0024]下面结合附图和具体实施方式对本专利技术进行详细说明。
[0025]本专利技术提供了一种基于生成对抗模仿学习的操作人员运动技能训练方法,基于一专家在环的遥操作训练框架,所述专家在环的遥操作训练框架包括专家和学员,通过在学员端施加引导力,在遥操作设备上模拟出专家对学员类似于手把手的教导;
[0026]在所述专家在环的遥操作训练框架中引入一训练者,所述训练者用于采用生成对抗模仿学习对其操作进行模仿;
[0027]其中,训练过程包括以下步骤:
[0028]步骤一、建立学员训练数据库;
[0029]步骤二、基于训练数据库训练智能体来模拟操作员的行为;
[0030]步骤三、基于训练好的智能体,设计学员运动技能训练方法。
[0031]在一些实施例中,步骤一建立学员训练数据库的具体方法为:
[0032]所述训练者和所述学员共同在Mahya Shahbazi的框架下操作,均受到引导力作用,期间收集操作员轨迹x
m
,学员轨迹x
t
,正确轨迹x
e
和引导刚度k等数据形成学员训练数据库。
[0033]在一些实施例中,步骤二基于训练数据库训练智能体来模拟操作员的行为的具体方法为:
[0034]对步骤一中得到的学员训练数据库进行处理,得到操作员轨迹和正确轨迹的差值
Δ
me
(t)=x
m
(t)

x
e
(t),操作员轨迹和学员轨迹的差值Δ
mt
(t)=x
m
(t)

x
t
(t);令状态s
t
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗模仿学习的操作人员运动技能训练方法,其特征在于,基于一专家在环的遥操作训练框架,所述专家在环的遥操作训练框架包括专家和学员,通过在学员端施加引导力,在遥操作设备上模拟出专家对学员教导;在所述专家在环的遥操作训练框架中引入一训练者,所述训练者用于采用生成对抗模仿学习对其操作进行模仿;其中,训练过程包括以下步骤:步骤一、建立学员训练数据库;步骤二、基于训练数据库训练智能体来模拟操作员的行为;步骤三、基于训练好的智能体,设计学员运动技能训练方法。2.如权利要求1所述的一种基于生成对抗模仿学习的操作人员运动技能训练方法,其特征在于,所述步骤一建立学员训练数据库的具体方法为:所述训练者和所述学员共同在Mahya Shahbazi的框架下操作,均受到引导力作用,期间收集操作员轨迹x
m
、学员轨迹x
t
、正确轨迹x
e
和引导刚度k形成学员训练数据库。3.如权利要求2所述的一种基于生成对抗模仿学习的操作人员运动技能训练方法,其特征在于,所述步骤二基于训练数据库训练智能体来模拟操作员的行为的具体方法为:对步骤一中得到的学员训练数据库进行处理,得到操作员轨迹和正确轨迹的差值Δ
me
(t)=x
m
(t)

x
e
(t),操作员轨迹和学员轨迹的差值Δ
mt
(t)=x
m
(t)

x
t
(t);令状态s
t
=(Δ
mt
(t),k(t)),动作a
t
=Δ
me
(t);将所述学员训练...

【专利技术属性】
技术研发人员:黄攀峰武曦刘正雄马志强常海涛刘星
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1