面向教育人机交互协作机器人的强化学习方法技术

技术编号：33377818 阅读：19 留言：0更新日期：2022-05-11 22:46

本发明专利技术公开了面向教育人机交互协作机器人的强化学习方法，所述学习方法如下：S1：设定X

全部详细技术资料下载

【技术实现步骤摘要】
面向教育人机交互协作机器人的强化学习方法

[0001]本专利技术涉及人机交互机器人
，具体为面向教育人机交互协作机器人的强化学习方法。

技术介绍

[0002]随着科技的快速进步，机器人技术也得到了快速的发展，如今，机器人应用已经广泛拓展于人们的日常生活和工作的不同领域，而强化学习是指通过让机器人自行运动，探索并学习面向任务的控制器，学习过程不用人工干涉，从而实现学习的自动化。
[0003]经过海量检索，发现现有技术，公开号为：CN112702423A，公开了一种基于物联网互动娱乐模式的机器人学习系统，属于人工智能
，所述机器人学习系统包括：人机交互模块、机器人与环境交互模块、机器人学习系统模块；所述人机交互模块包括第一账户操作单元、交互控制单元、数据同步融合单元和可视化单元，所述机器人与环境交互模块包括第二账户操作单元、部署反馈验证单元、数据采集单元和设备控制单元，所述机器人学习系统模块包括账户管理单元、数据处理单元、学习训练单元和内容分发单元。本专利技术的系统能够低成本获得带标签的机器人学习训练数据。
[0004]综上所述，现有的机器人学习方法存在学习周期长，学习过程难以全自动。因此难以在机器人上直接使用。

技术实现思路

[0005]本专利技术的目的在于提供面向教育人机交互协作机器人的强化学习方法，以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的，本专利技术提供如下技术方案：面向教育人机交互协作机器人的强化学习方法，所述学习方法如下：
[000...

【技术保护点】

【技术特征摘要】
1.面向教育人机交互协作机器人的强化学习方法，其特征在于：所述学习方法如下：S1：设定X
k
表示机器人系统的关节角速度和角速度状态、U
k
表示控制输入、r
k
表示参考轨迹，设定控制如下：其中，K
b
表示反馈控制增益、K
f
表示前馈控制增益、K为K
b
、K
f
的集合；S2：根据Bellman最优性原则，将值函数V递归写为：V(X
k
,r
k
)＝c
k
+V(X
k+1
,r
k+1
)，基于值函数定义注释函数如下：S3：导出强化学习方法，其中第一步：初始化δ、H、K，并导入训练场景；第二步：导入Actor
‑
critic算法；第三步：对训练场景进行重复循环演算，结束后测试输入饱和。2.根据权利要求1所述的面向教育人机交互协作机器人的强化学习方法，其特征在于：基于学习方法的S3中：Actor
‑
critic算法检测机器人的系统状态，采用Critic更新对控制系统算法进行更新，其中递归执行方程如下：Q(X
k
，...

【专利技术属性】
技术研发人员：范鹏，易凡，袁萌，
申请(专利权)人：朋尼奥武汉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人