面向教育人机交互协作机器人的强化学习方法技术

技术编号:33377818 阅读:19 留言:0更新日期:2022-05-11 22:46
本发明专利技术公开了面向教育人机交互协作机器人的强化学习方法,所述学习方法如下:S1:设定X

【技术实现步骤摘要】
面向教育人机交互协作机器人的强化学习方法


[0001]本专利技术涉及人机交互机器人
,具体为面向教育人机交互协作机器人的强化学习方法。

技术介绍

[0002]随着科技的快速进步,机器人技术也得到了快速的发展,如今,机器人应用已经广泛拓展于人们的日常生活和工作的不同领域,而强化学习是指通过让机器人自行运动,探索并学习面向任务的控制器,学习过程不用人工干涉,从而实现学习的自动化。
[0003]经过海量检索,发现现有技术,公开号为:CN112702423A,公开了一种基于物联网互动娱乐模式的机器人学习系统,属于人工智能
,所述机器人学习系统包括:人机交互模块、机器人与环境交互模块、机器人学习系统模块;所述人机交互模块包括第一账户操作单元、交互控制单元、数据同步融合单元和可视化单元,所述机器人与环境交互模块包括第二账户操作单元、部署反馈验证单元、数据采集单元和设备控制单元,所述机器人学习系统模块包括账户管理单元、数据处理单元、学习训练单元和内容分发单元。本专利技术的系统能够低成本获得带标签的机器人学习训练数据。
[0004]综上所述,现有的机器人学习方法存在学习周期长,学习过程难以全自动。因此难以在机器人上直接使用。

技术实现思路

[0005]本专利技术的目的在于提供面向教育人机交互协作机器人的强化学习方法,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:面向教育人机交互协作机器人的强化学习方法,所述学习方法如下:
[0007]S1:设定X
k
表示机器人系统的关节角速度和角速度状态、U
k
表示控制输入、r
k
表示参考轨迹,设定控制如下:
[0008][0009]其中,K
b
表示反馈控制增益、K
f
表示前馈控制增益、K为K
b
、K
f
的集合;
[0010]S2:根据Bellman最优性原则,将值函数V递归写为:
[0011]V(X
k
,r
k
)=c
k
+V(X
k+1
,r
k+1
),
[0012]基于值函数定义注释函数如下:
[0013][0014]S3:导出强化学习方法,其中第一步:初始化δ、H、K,并导入训练场景;第二步:导入Actor

critic算法;第三步:对训练场景进行重复循环演算,结束后测试输入饱和。
[0015]优选的,基于学习方法的S3中:
[0016]Actor

critic算法检测机器人的系统状态,采用Critic更新对控制系统算法进行更新,其中递归执行方程如下:
[0017]Q(X
k
,r
k
,u
k
)

Q
v
(X
k+1
,r
k+1
,u
k+1
)=c
k
+V(X
k+1
,r
k+1
)

[c
k+1
+V(X
k+2
,r
k+2
)]。
[0018]优选的,Critic更新对控制系统算法进行更新后,将机器人控制系统更新后再经过actor更新,actor更新方向为Critic函数的最大化:
[0019]K=arg
u maxQ
v
(X
k
,r
k
,u
k
),
[0020]遵循决定性策略梯度算法的想法,策略改进算法表示为:
[0021][0022]其中,为critic相对于控制策略的梯度,是梯度的期望函数,a是学习率;
[0023]机器人在学习过程中末端执行器的历史轨迹和最终轨迹,随着学习,机器人的运动性能不断优化,最终,通过10次学习,5分钟的学习时间,机器人便可完成学习任务。
[0024]与现有技术相比,本专利技术的有益效果是:本专利技术基于模型的actor

critic学习算法,能够在短时间,低探索次数的情况下,学会机器人的运动控制。且学习过程能够完全自动化,无需人工干预。具有很好的推广价值,通过学习,机器人的运动精度能够提高50%,从而实现在不增加硬件成本的条件下,提升机器人性能。
附图说明
[0025]图1为本专利技术的结构示意图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]在本专利技术的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0028]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0029]请参阅图1,本专利技术提供的三种实施例:
[0030]实施例一:
[0031]面向教育人机交互协作机器人的强化学习方法,学习方法如下:
[0032]S1:设定X
k
表示机器人系统的关节角速度和角速度状态、U
k
表示控制输入、r
k
表示参考轨迹,设定控制如下:
[0033][0034]其中,K
b
表示反馈控制增益、K
f
表示前馈控制增益、K为K
b
、K
f
的集合;
[0035]S2:根据Bellman最优性原则,将值函数V递归写为:
[0036]V(X
k
,r
k
)=c
k
+V(X
k+1
,r
k+1
),
[0037]基于值函数定义注释函数如下:
[0038][0039]S3:导出强化学习方法,其中第一步:初始化δ、H、K,并导入训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向教育人机交互协作机器人的强化学习方法,其特征在于:所述学习方法如下:S1:设定X
k
表示机器人系统的关节角速度和角速度状态、U
k
表示控制输入、r
k
表示参考轨迹,设定控制如下:其中,K
b
表示反馈控制增益、K
f
表示前馈控制增益、K为K
b
、K
f
的集合;S2:根据Bellman最优性原则,将值函数V递归写为:V(X
k
,r
k
)=c
k
+V(X
k+1
,r
k+1
),基于值函数定义注释函数如下:S3:导出强化学习方法,其中第一步:初始化δ、H、K,并导入训练场景;第二步:导入Actor

critic算法;第三步:对训练场景进行重复循环演算,结束后测试输入饱和。2.根据权利要求1所述的面向教育人机交互协作机器人的强化学习方法,其特征在于:基于学习方法的S3中:Actor

critic算法检测机器人的系统状态,采用Critic更新对控制系统算法进行更新,其中递归执行方程如下:Q(X
k
,...

【专利技术属性】
技术研发人员:范鹏易凡袁萌
申请(专利权)人:朋尼奥武汉科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1