一种先验知识引导下的机器人操作技能学习系统及方法技术方案

技术编号：25508922 阅读：28 留言：0更新日期：2020-09-04 16:57

本公开提出了一种先验知识引导下的机器人操作技能学习系统及方法，包括：物理环境模块、评价模块及机器人操作技能策略学习模块；物理环境模块采集机器人作业环境信息及当前的操作状态；评价模块利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值；机器人操作技能策略学习模块基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习，建立操作接触状态与机械臂动作一一映射的专家知识库，输出机器人动作决策。有效提高学习效率，降低学习难度。

全部详细技术资料下载

【技术实现步骤摘要】
一种先验知识引导下的机器人操作技能学习系统及方法
本公开属于机器学习
，尤其涉及一种先验知识引导下的机器人操作技能学习系统及方法。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。强化学习已经成为机器人操作技能学习的主要方法，它通过模仿人类的学习方式，在不进行显式教学的情况下，利用传感器反馈信息，通过不断地与环境交互，得到外部的奖励或惩罚信号，适应不断变化的环境，采取适当的动作。但是专利技术人在研究中发现，目前的大部分学习方法完全是从零开始探索，训练时间较长，使得机器人技能学习的效率下降。
技术实现思路
为克服上述现有技术的不足，本公开提供了一种先验知识引导下的机器人操作技能学习系统，将专家经验知识和操作操作工艺规则的先验知识应用于强化学习的方法，减少机器人操作技能学习过程中的无效探索，有效提高学习效率，降低学习难度。为实现上述目的，本公开的一个或多个实施例提供了如下技术方案：一方面，公开了一种先验知识引导下的机器人操作技能学习系统，...

【技术保护点】
1.一种先验知识引导下的机器人操作技能学习系统，其特征是，包括：/n物理环境模块、评价模块及机器人操作技能策略学习模块；/n所述物理环境模块采集机器人作业环境信息及当前的操作状态；/n所述评价模块利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值；/n所述机器人操作技能策略学习模块基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习，建立操作接触状态与机械臂动作一一映射的专家知识库，输出机器人动作决策。/n

【技术特征摘要】
1.一种先验知识引导下的机器人操作技能学习系统，其特征是，包括：
物理环境模块、评价模块及机器人操作技能策略学习模块；
所述物理环境模块采集机器人作业环境信息及当前的操作状态；
所述评价模块利用操作工艺的先验知识对机器人探索操作策略进行评价并反馈奖惩值；
所述机器人操作技能策略学习模块基于所采集的环境信息、操作状态以及反馈奖惩值进行操作策略的学习，建立操作接触状态与机械臂动作一一映射的专家知识库，输出机器人动作决策。

2.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述物理环境模块包括：
传感系统，采集机器人作业环境的主要信息，其中，采集的图像、力或力矩、位移、关节角度、关节速度参数作为当前的操作状态。

3.如权利要求2所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，还包括数据存储区，将传感系统输出的机器人当前的操作状态、机器人当前执行的动作、评价模块给出的奖励值组成多元组数，进行存储。

4.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述评价模块通过设定操作过程中的多种典型接触状态与机械臂动作，采集大量样本通过学习训练，从而建立的操作接触状态与机械臂动作一一映射的专家知识库。

5.如权利要求1所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述评价模块根据操作工艺设定操作质量，通过建立影响操作质量的位姿偏移量、操作深度、操作接触力参数模型，得到操作参数与操作质量之间的规则。

6.如权利要求3所述的一种先验知识引导下的机器人操作技能学习系统，其特征是，所述机器人操作技能策略学习模块从数据存储区获取多元组数，首先判断取出的操作状态是否存在专家知识库，如果是，根据专家知识库存储的数据直接映射到机器人的操作动作；如果不是，输入到策略网络中计算状态值函数，根...

【专利技术属性】
技术研发人员：宋锐，李凤鸣，李贻斌，王艳红，刘义祥，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人