一种机器人智能控制方法技术

技术编号:36988403 阅读:12 留言:0更新日期:2023-03-25 18:06
本发明专利技术涉及机器人技术领域,具体公开了一种机器人智能控制方法。本发明专利技术通过在机器人A型状态下利用强化学习训练控制算法模型;驱动机器人在任务场景运行,通过内态基准模块记录A型基准数据集;更换机器人运动模块,切换至B型状态,使用随机控制算法,随机控制B型状态机器人运动,处理得到动作空间转换基准数据集;基于动作空间转换基准数据集,建立并训练动作空间转换模型;利用控制算法模型和动作空间转换模型,在B型状态下,控制机器人完成寻径任务。能够在运动模块更换时,不再重新开发整机控制算法,而只是将动作空间进行转换,以使新的运动模块适应当前机器人任务,并且动作空间转换过程以学习方式智能完成,大幅提高开发效率。率。率。

【技术实现步骤摘要】
一种机器人智能控制方法


[0001]本专利技术属于机器人
,尤其涉及一种机器人智能控制方法。

技术介绍

[0002]为了灵活教学和演示,教育型机器人通常会采用部分运动模块可更换的机体结构。但运动模块更换后,机器人的控制输入有可能发生改变,之前的整机控制算法也就不再适用,需要建立新的控制模型,重新开发算法。这无疑会增加工作量,尤其是当机器人存在多种可更换的运动模块时,极为耗时耗力。

技术实现思路

[0003]本专利技术实施例的目的在于提供一种机器人智能控制方法,旨在解决
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术实施例提供如下技术方案:一种机器人智能控制方法,所述方法具体包括以下步骤:在机器人A型状态下利用强化学习训练控制算法模型;基于所述控制算法模型,驱动机器人在任务场景运行,通过内态基准模块记录A型基准数据集;更换机器人运动模块,将机器人切换至B型状态,使用随机控制算法,随机控制B型状态机器人运动,通过内态基准模块记录B型采样数据集,综合所述A型基准数据集,处理得到动作空间转换基准数据集;基于所述动作空间转换基准数据集,建立并训练动作空间转换模型;利用所述控制算法模型和所述动作空间转换模型,在机器人B型状态下,控制机器人完成寻径任务。
[0005]作为本专利技术实施例技术方案进一步的限定,所述在机器人A型状态下利用强化学习训练控制算法模型具体包括以下步骤:确定机器人A型状态下的动作空间和状态空间;针对当前的寻径任务,确定机器人在强化学习时的奖励函数;使用所述动作空间、所述状态空间和所述奖励函数,利用强化学习算法,训练控制算法模型。
[0006]作为本专利技术实施例技术方案进一步的限定,所述动作空间为机器人执行的所有控制输入的集合;所述状态空间为机器人在当前环境下的状态集合。
[0007]作为本专利技术实施例技术方案进一步的限定,所述强化学习算法为DDPG,由Actor网络、估计Critic网络、目标Actor网络和目标Critic网络四个网络构成。
[0008]作为本专利技术实施例技术方案进一步的限定,所述基于所述控制算法模型,驱动机器人在任务场景运行,通过内态基准模块记录A型基准数据集具体包括以下步骤:将所述控制算法模型载入机器人控制模块;
在寻径任务的场景中,将A型状态机器人随机放置于不同的初始位置,随机朝向;通过内态基准模块记录机器人在运行过程中的内部状态和动作数据,得到A型基准数据集。
[0009]作为本专利技术实施例技术方案进一步的限定,所述更换机器人运动模块,将机器人切换至B型状态,使用随机控制算法,随机控制B型状态机器人运动,通过内态基准模块记录B型采样数据集,综合所述A型基准数据集,处理得到动作空间转换基准数据集具体包括以下步骤:更换机器人运动模块,将机器人切换至B型状态;使用随机控制算法,随机控制B型状态机器人运动,通过内态基准模块记录下每一个采样时刻的内部状态和动作数据,记为B型采样数据集;以A型基准数据集为参考,从B型采样数据集转化得到B型插值数据集;将A型基准数据集和B型插值数据集组合得到动作空间转换基准数据集。
[0010]作为本专利技术实施例技术方案进一步的限定,所述基于所述动作空间转换基准数据集,建立并训练动作空间转换模型具体包括以下步骤:建立动作空间转换ANN网络模型;使用所述动作空间转换基准数据集作为输入训练数据,在所述动作空间转换ANN网络模型中训练,得到动作空间转换模型。
[0011]作为本专利技术实施例技术方案进一步的限定,所述利用所述控制算法模型和所述动作空间转换模型,在机器人B型状态下,控制机器人完成寻径任务具体包括以下步骤:通过内态基准模块和外态交互模块获取B型状态机器人的状态数据;将所述状态数据输入至所述控制算法模型中,输出第一动作量;将所述第一动作量输入至所述动作空间转换模型中,输出第二动作量;以所述第二动作量控制B型运动模块运动,完成寻径任务。
[0012]作为本专利技术实施例技术方案进一步的限定,所述状态数据包括线速度、角速度、终点方位和最近障碍物方位。
[0013]与现有技术相比,本专利技术的有益效果是:本专利技术有效提高了更换模块情形下的开发效率,而且当存在多个可更换的运动模块时,效率提升尤为显著。相比于原来每更换一种运动模块就要重新设计强化学习模型进行训练,本专利技术方法只需进行一次强化学习训练获得任务的控制策略,然后以内态基准模块为桥梁,使用动态空间转换方法使控制算法能够适应新的运动模块。而且在训练动态空间转换模型时,获得数据集不再依赖于任务场景,数据随机采集更为便捷。此外,动态空间转换模型可以采用小型ANN模型,相比于总的强化学习框架也更为轻量,训练更快,在更换运动模块后,获取相应控制算法所需要进行的工作也更少。
附图说明
[0014]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例。
[0015]图1示出了本专利技术实施例提供的机器人模块结构示意图。
[0016]图2示出了本专利技术实施例提供的寻径任务场景示意图。
[0017]图3示出了本专利技术实施例提供的机器人状态示意图。
[0018]图4示出了本专利技术实施例提供的动作空间转换ANN网络模型示意。
具体实施方式
[0019]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0020]可以理解的是,现有的教育型机器人为了灵活教学和演示,通常会采用部分运动模块可更换的机体结构。但运动模块更换后,机器人的控制输入有可能发生改变,之前的整机控制算法也就不再适用,需要建立新的控制模型,重新开发算法。这无疑会增加工作量,尤其是当机器人存在多种可更换的运动模块时,极为耗时耗力。
[0021]为解决上述问题,本专利技术实施例通过在机器人A型状态下利用强化学习训练控制算法模型;驱动机器人在任务场景运行,通过内态基准模块记录A型基准数据集;更换机器人运动模块,切换至机器人B型状态,使用随机控制算法,随机控制B型状态机器人运动,处理得到动作空间转换基准数据集;基于动作空间转换基准数据集,建立并训练动作空间转换模型;利用控制算法模型和动作空间转换模型,在机器人B型状态下,控制机器人完成寻径任务。能够在运动模块更换时,不再重新开发整机控制算法,而只是将动作空间进行转换,以使新的运动模块适应当前机器人任务,并且动作空间转换过程以学习方式智能完成,大幅提高开发效率。
[0022]具体的,在本专利技术提供的一个优选实施方式中,一种机器人智能控制方法,所述方法具体包括以下步骤:步骤一、在机器人A型状态下利用强化学习训练控制算法模型。
[0023]在本专利技术实施例中,在机器人A型状态下利用强化学习训练控制算法模型的具体实施如下:机器人的动作空间表示机器人可执行的所有控制输入的集合,A型运动模块有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器人智能控制方法,其特征在于,所述方法具体包括以下步骤:在机器人A型状态下利用强化学习训练控制算法模型;基于所述控制算法模型,驱动机器人在任务场景运行,通过内态基准模块记录A型基准数据集;更换机器人运动模块,将机器人切换至B型状态,使用随机控制算法,随机控制B型状态机器人运动,通过内态基准模块记录B型采样数据集,综合所述A型基准数据集,处理得到动作空间转换基准数据集;基于所述动作空间转换基准数据集,建立并训练动作空间转换模型;利用所述控制算法模型和所述动作空间转换模型,在机器人B型状态下,控制机器人完成寻径任务。2.根据权利要求1所述的机器人智能控制方法,其特征在于,所述在机器人A型状态下利用强化学习训练控制算法模型具体包括以下步骤:确定机器人A型状态下的动作空间和状态空间;针对当前的寻径任务,确定机器人在强化学习时的奖励函数;使用所述动作空间、所述状态空间和所述奖励函数,利用强化学习算法,训练控制算法模型。3.根据权利要求2所述的机器人智能控制方法,其特征在于,所述动作空间为机器人执行的所有控制输入的集合;所述状态空间为机器人在当前环境下的状态集合。4.根据权利要求2所述的机器人智能控制方法,其特征在于,所述强化学习算法为DDPG,由Actor网络、估计Critic网络、目标Actor网络和目标Critic网络四个网络构成。5.根据权利要求1所述的机器人智能控制方法,其特征在于,所述基于所述控制算法模型,驱动机器人在任务场景运行,通过内态基准模块记录A型基准数据集具体包括以下步骤:将所述控制算法模型载入机器人控制模块;在寻径任务的场景中,将A型状态机器人随机放置于不同的初始位置,随机朝向;通过内态基准...

【专利技术属性】
技术研发人员:叶永浩叶演习余任冲李明华
申请(专利权)人:深圳育智科创科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1