机器人行为训练方法、装置、系统、存储介质及设备制造方法及图纸

技术编号:21128603 阅读:35 留言:0更新日期:2019-05-18 00:36
本申请涉及一种机器人行为训练方法、装置、系统、存储介质及机器人。其中,机器人行为训练方法包括:获取执行专家的行为过程中的决策数据;基于所述决策数据,对初始模型进行训练得到预处理模型;基于所述预处理模型进行自主学习,得到机器人行为模型。采用本发明专利技术的技术方案,提高了训练后的机器人模型行为动作的适应性和准确性。

Robot behavior training methods, devices, systems, storage media and equipment

The application relates to a robot behavior training method, device, system, storage medium and robot. Among them, robot behavior training methods include: acquiring decision-making data in the process of executing experts'behavior; training the initial model to get the pre-processing model based on the decision-making data; autonomous learning based on the pre-processing model to get the robot behavior model. By adopting the technical scheme of the present invention, the adaptability and accuracy of the behavior action of the trained robot model are improved.

【技术实现步骤摘要】
机器人行为训练方法、装置、系统、存储介质及设备
本申请涉及机器人控制
,特别是涉及一种机器人行为训练方法、装置、系统、存储介质及设备。
技术介绍
随着科技水平的提高,整个社会都向着智能化、自动化的方向发展。越来越多的行为依赖于机器人的实现。比如:通过机器人执行抓取的动作、装配的动作、带动目标物运动等等的动作行为。人工智能为机器人未来发展带来了无限的可能,通过对神经网络模型进行训练,从而使得基于该网络模型控制的机器人能够自主的学习执行各种动作。但是应该看到基于机器学习的方法进行机器人的行为训练学习,还存在对训练数据过于依赖、学习效果不好等等的问题。
技术实现思路
基于此,本专利技术提供一种机器人行为训练方法、装置、系统、存储介质及设备。本专利技术第一方面提供一种机器人行为训练方法,所述机器人行为训练方法包括:获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;基于所述决策数据,进行模型自主学习,得到机器人行为模型。进一步,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:基于所述决策数据,训练初始模型,得到预处理模型;进行所述预处理模型自主学习,得到所述机器人行为模型。进一步,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:基于所述决策数据,进行初始模型自主学习,得到所述机器人行为模型。进一步,所述获取执行专家的行为过程中的决策数据包括:获取所述执行专家的行为过程中的多个当前时刻的行为数据;获取所述执行专家的行为过程中第一传感器发送的所述多个当前时刻的所述观测数据;其中,所述当前时刻的行为数据与所述当前时刻的观测数据相对应。进一步,所述获取执行专家的行为过程中的决策数据包括:获取所述执行专家的行为过程中第二传感器发送的多个当前时刻所述行为数据的相关信息;根据所述相关信息,得到多个上一时刻的所述行为数据;获取所述执行专家的行为过程中第一传感器发送的所述多个上一时刻的所述观测数据;其中,所述上一时刻的所述行为数据与所述上一时刻的所述观测数据相对应。进一步,所述观测数据包括:图像或根据所述图像生成的机器人的位姿或位置数据、力反馈数据、驱动单元的运动量反馈数据、测距数据、速度或加速度测量数据、电流或电压测量数据、时间数据和/或温度数据。进一步,所述行为数据包括:目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。进一步,所述行为包括:从散装物或规则摆放物中抓取目标物;装配目标物;放置目标物;和/或从一个位置运动到另一位置。本专利技术第二方面提供一种机器人行为训练控制装置,所述机器人行为训练控制装置包括:决策数据获取模块,用于获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;行为模型生成模块,用于基于所述决策数据,进行模型自主学习,得到机器人行为模型。本专利技术第三方面提供一种机器人行为训练系统,包括:行为数据生成装置,用于生成行为数据,并将所述行为数据发送给所述控制装置;第一传感器,用于获取所述行为数据对应的观测数据,并将所述观测数据发送给所述控制装置;控制装置,用于获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个所述行为数据和对应的所述观测数据;基于所述决策数据,进行模型自主学习,得到机器人行为模型。进一步,所述机器人行为训练系统还包括:机器人,用于在示教下执行所述专家的行为。进一步,所述传感器包括:图像传感器,用于获取某一时刻的机器人的图像数据;力传感器,用于获取某一时刻的机器人的力反馈数据;编码器,用于获取某一时刻机器人的驱动单元的运动反馈数据;测距器,用于获取某一时刻机器人的距离相关的测距数据;速度或加速度数据测量器,用于获取某一时刻机器人的速度或加速度测量数据;电流或电压测量器,用于获取某一时刻机器人的电流或电压测量数据;计时器,用于获取某一时刻的具体时间数据;温度传感器,用于获取某一时刻机器人的温度数据。进一步,所述行为数据生成装置包括:控制单元;所述控制单元,用于生成所述行为数据。进一步,所述行为数据生成装置包括:第二传感器和控制单元;所述第二传感器,用于获取多个当前时刻所述行为数据的相关信息,将所述相关信息发送给所述控制单元;所述控制单元,用于根据所述相关信息,得到多个上一时刻的所述行为数据。进一步,所述行为数据包括:目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。本专利技术第四方面提供一种机器人系统,所述机器人系统包括上面任一项所述的机器人行为训练系统。本专利技术第五方面提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上面任一项所述的机器人训练方法。本专利技术第六方面提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上面任一项所述的机器人训练方法。采用本专利技术的技术方法,由于基于所述决策数据,进行模型自主学习,得到机器人行为模型,因此提高了训练后的机器人模型在各种情况下完成行为动作的适应性和准确性。附图说明图1为一个实施例中机器人行为训练方法的第一流程示意图;图2为一个实施例中机器人行为训练方法的第二流程示意图;图3为一个实施例中机器人行为训练方法的第三流程示意图;图4为一个实施例中机器人行为训练方法的第四流程示意图;图5为机器人系统的实施例的第一结构示意图;图6为机器人系统的实施例的第二结构示意图;图7为机器人训练装置的第一结构框图;图8为机器人训练装置的第二结构框图;图9为机器人训练装置的第三结构框图;图10为机器人训练装置的第四结构框图;图11为中机器人训练系统的第一结构框图;图12为中机器人训练系统的第二结构框图;图13为中机器人的行为数据生成装置的第一结构框图;图14为中机器人的行为数据生成装置的第二结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在一个实施例中,如图1所示,提供一种机器人行为训练方法,该机器人行为训练方法包括以下步骤:步骤S100获取执行专家的行为过程中的决策数据;其中,决策数据为多个观测数据及对应的行为数据。具体的,决策数据是指某一时刻下获取的观测数据及该时刻获取的对应的行为数据对汇总的集合。具体的,行为过程可以包括但不限于:从散装物或规则排列的物中抓取目标物体的动作(如图6所示);装配目标物体的动作(如图5所示);放下目标物的动作(省略附图),从一个位置运动到另一个位置的动作(省略附图),或者上述各个动作中的部分或全部动作的组合。在一个实施例中,决策数据为通过示教机器人执行专家的行为过程中获取的。具体的,可以通过操作人员直接或者通过控制器生成的控制指令等等带动机器人执行专家行为;比如:机器人在操作人员的带动下完成积木的装配行为动作;又比如:根据控制器发送的机器人的各个驱动单元的运动量指令完成积木的装配行为动作。进一步,在一些实施例中,通过行为数据生成装置生成的指令带动机器人执行专家行为的情况下:行为数据可以包括但不限于:执行专家的行为过程中的每一步对应的通过控制器输出的机器人执行每一步的目标位姿(X、本文档来自技高网...

【技术保护点】
1.一种机器人行为训练方法,其特征在于,所述机器人行为训练方法包括:获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;基于所述决策数据,进行模型自主学习,得到机器人行为模型。

【技术特征摘要】
1.一种机器人行为训练方法,其特征在于,所述机器人行为训练方法包括:获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;基于所述决策数据,进行模型自主学习,得到机器人行为模型。2.根据权利要求1所述的机器人行为训练方法,其特征在于,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:基于所述决策数据,训练初始模型,得到预处理模型;进行所述预处理模型自主学习,得到所述机器人行为模型。3.根据权利要求1所述的机器人行为训练方法,其特征在于,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:基于所述决策数据,进行初始模型自主学习,得到所述机器人行为模型。4.根据权利要求1、2或3所述的智能体行为训练方法,其特征在于,所述获取执行专家的行为过程中的决策数据包括:获取所述执行专家的行为过程中的多个当前时刻的行为数据;获取所述执行专家的行为过程中第一传感器发送的所述多个当前时刻的所述观测数据;其中,所述当前时刻的行为数据与所述当前时刻的观测数据相对应。5.根据权利要求1、2或3所述的智能体行为训练方法,其特征在于,所述获取执行专家的行为过程中的决策数据包括:获取所述执行专家的行为过程中第二传感器发送的多个当前时刻所述行为数据的相关信息;根据所述相关信息,得到多个上一时刻的所述行为数据;获取所述执行专家的行为过程中第一传感器发送的所述多个上一时刻的所述观测数据;其中,所述上一时刻的所述行为数据与所述上一时刻的所述观测数据相对应。6.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述观测数据包括:图像或根据所述图像生成的机器人的位姿或位置数据、力反馈数据、驱动单元的运动量反馈数据、测距数据、速度或加速度测量数据、电流或电压测量数据、时间数据和/或温度数据。7.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述行为数据包括:目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。8.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述行为包括:从散装物或规则摆放物中抓取目标物;装配目标物;放置目标物;和/或从一个位置运动到另一位置。9.一种机器人行为训练控制装置,其特征在于,所述机器人行为训练控制装置包括:决策数据获取模块,用于获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测...

【专利技术属性】
技术研发人员:何德裕
申请(专利权)人:鲁班嫡系机器人深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1