The application relates to a robot behavior training method, device, system, storage medium and robot. Among them, robot behavior training methods include: acquiring decision-making data in the process of executing experts'behavior; training the initial model to get the pre-processing model based on the decision-making data; autonomous learning based on the pre-processing model to get the robot behavior model. By adopting the technical scheme of the present invention, the adaptability and accuracy of the behavior action of the trained robot model are improved.
【技术实现步骤摘要】
机器人行为训练方法、装置、系统、存储介质及设备
本申请涉及机器人控制
,特别是涉及一种机器人行为训练方法、装置、系统、存储介质及设备。
技术介绍
随着科技水平的提高,整个社会都向着智能化、自动化的方向发展。越来越多的行为依赖于机器人的实现。比如:通过机器人执行抓取的动作、装配的动作、带动目标物运动等等的动作行为。人工智能为机器人未来发展带来了无限的可能,通过对神经网络模型进行训练,从而使得基于该网络模型控制的机器人能够自主的学习执行各种动作。但是应该看到基于机器学习的方法进行机器人的行为训练学习,还存在对训练数据过于依赖、学习效果不好等等的问题。
技术实现思路
基于此,本专利技术提供一种机器人行为训练方法、装置、系统、存储介质及设备。本专利技术第一方面提供一种机器人行为训练方法,所述机器人行为训练方法包括:获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;基于所述决策数据,进行模型自主学习,得到机器人行为模型。进一步,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:基于所述决策数据,训练初始模型,得到预处理模型;进行所述预处理模型自主学习,得到所述机器人行为模型。进一步,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:基于所述决策数据,进行初始模型自主学习,得到所述机器人行为模型。进一步,所述获取执行专家的行为过程中的决策数据包括:获取所述执行专家的行为过程中的多个当前时刻的行为数据;获取所述执行专家的行为过程中第一传感器发送的所述多个当前时刻的所述观测数据;其中,所述当前时刻的行为数 ...
【技术保护点】
1.一种机器人行为训练方法,其特征在于,所述机器人行为训练方法包括:获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;基于所述决策数据,进行模型自主学习,得到机器人行为模型。
【技术特征摘要】
1.一种机器人行为训练方法,其特征在于,所述机器人行为训练方法包括:获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测数据;基于所述决策数据,进行模型自主学习,得到机器人行为模型。2.根据权利要求1所述的机器人行为训练方法,其特征在于,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:基于所述决策数据,训练初始模型,得到预处理模型;进行所述预处理模型自主学习,得到所述机器人行为模型。3.根据权利要求1所述的机器人行为训练方法,其特征在于,所述基于所述决策数据,进行模型自主学习,得到机器人行为模型包括:基于所述决策数据,进行初始模型自主学习,得到所述机器人行为模型。4.根据权利要求1、2或3所述的智能体行为训练方法,其特征在于,所述获取执行专家的行为过程中的决策数据包括:获取所述执行专家的行为过程中的多个当前时刻的行为数据;获取所述执行专家的行为过程中第一传感器发送的所述多个当前时刻的所述观测数据;其中,所述当前时刻的行为数据与所述当前时刻的观测数据相对应。5.根据权利要求1、2或3所述的智能体行为训练方法,其特征在于,所述获取执行专家的行为过程中的决策数据包括:获取所述执行专家的行为过程中第二传感器发送的多个当前时刻所述行为数据的相关信息;根据所述相关信息,得到多个上一时刻的所述行为数据;获取所述执行专家的行为过程中第一传感器发送的所述多个上一时刻的所述观测数据;其中,所述上一时刻的所述行为数据与所述上一时刻的所述观测数据相对应。6.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述观测数据包括:图像或根据所述图像生成的机器人的位姿或位置数据、力反馈数据、驱动单元的运动量反馈数据、测距数据、速度或加速度测量数据、电流或电压测量数据、时间数据和/或温度数据。7.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述行为数据包括:目标位姿或位置、机器人的各个驱动单元的运动量或机器人的运动量。8.根据权利要求1、2或3所述的机器人行为训练方法,其特征在于,所述行为包括:从散装物或规则摆放物中抓取目标物;装配目标物;放置目标物;和/或从一个位置运动到另一位置。9.一种机器人行为训练控制装置,其特征在于,所述机器人行为训练控制装置包括:决策数据获取模块,用于获取执行专家的行为过程中的决策数据;其中,所述决策数据包括多个行为数据和对应的观测...
【专利技术属性】
技术研发人员:何德裕,
申请(专利权)人:鲁班嫡系机器人深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。