机器人的移动控制方法、装置、设备及存储介质制造方法及图纸

技术编号:39248828 阅读:8 留言:0更新日期:2023-10-30 12:00
一种机器人的移动控制方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取真实环境的状态信息,真实环境被划分为多个网格,真实环境中包括至少一个机器人,状态信息用于指示该真实环境以及该至少一个机器人的状态;将状态信息输入至训练后的强化学习策略,该强化学习策略经过在仿真环境中训练后直接迁移至真实环境使用;通过强化学习策略根据状态信息,生成针对机器人的控制信息,该控制信息用于控制机器人在网格之间进行移动。上述方法避免了由于域随机化处理的参数设置不合理和不足以覆盖真实环境多样性而导致的性能下降问题,达到了将强化学习策略从仿真环境直接迁移到真实环境中使用,而不影响其性能的技术效果。技术效果。技术效果。

【技术实现步骤摘要】
机器人的移动控制方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,特别涉及一种机器人的移动控制方法、装置、设备及存储介质。

技术介绍

[0002]机器人的移动控制应用于各种场景中,涉及地面、空中、水下和外太空等场景。在工业领域,机器人的移动控制可以应用于仓储物流搬运、工厂不同工位物料运输、大型零件加工或者焊接、长距离物体检测抓取等场景,旨在提高工作效率,减少人力成本,以及减少工作的危险。
[0003]在研究机器人的移动控制方法时,往往采用在仿真环境中训练机器人的移动控制策略,再将该策略迁移到真实环境的方法。然而在仿真环境中学习到的策略由于存在Sim to Real Gap(Simulation

to

Reality Gap,模拟与现实之间的差距),通常无法直接迁移到真实环境中。因此,在相关技术中,通常对仿真环境进行随机化处理,即在仿真环境中加入必要的随机噪声,以模拟真实环境中的不确定性。
[0004]上述相关技术提供的在仿真环境中加入必要的随机噪声,这种方法非常依赖人类经验来设定随机噪声的类型和强度,因此可能会导致从仿真环境中迁移的移动控制策略在真实环境中的性能下降。

技术实现思路

[0005]本申请实施例提供了一种机器人的移动控制方法、装置、设备及存储介质。本申请实施例提供的技术方案如下:
[0006]根据本申请实施例的一个方面,提供了一种机器人的移动控制方法,所述方法包括:
[0007]获取真实环境的状态信息,所述真实环境被划分为多个网格,所述真实环境中包括至少一个机器人,所述状态信息用于指示所述真实环境以及所述至少一个机器人的状态;
[0008]将所述状态信息输入至训练后的强化学习策略,所述强化学习策略经过在仿真环境中训练后直接迁移至所述真实环境使用;
[0009]通过所述强化学习策略根据所述状态信息,生成针对所述机器人的控制信息,所述控制信息用于控制所述机器人在所述网格之间进行移动。
[0010]根据本申请实施例的一个方面,提供了一种机器人的移动控制方法,所述方法包括:
[0011]获取仿真环境在第一时间单元的状态信息,所述仿真环境被划分为多个网格,所述仿真环境中包括至少一个仿真机器人,所述状态信息用于指示所述仿真环境以及所述至少一个仿真机器人的状态;
[0012]通过强化学习策略根据所述第一时间单元的状态信息,生成所述第一时间单元的
控制信息,所述控制信息用于控制所述仿真机器人在所述网格之间进行移动;
[0013]确定所述仿真机器人在执行所述第一时间单元的控制信息所指示的操作之后,所述仿真环境在第二时间单元的状态信息,所述第二时间单元是所述第一时间单元的下一个时间单元;
[0014]根据基于所述状态信息和所述动作信息计算得到的损失函数值,对所述强化学习策略的参数进行调整,得到训练后的强化学习策略;其中,所述训练后的强化学习策略用于直接迁移至真实环境中使用。
[0015]根据本申请实施例的一个方面,提供了一种机器人的移动控制装置,所述装置包括:
[0016]获取模块,用于获取真实环境的状态信息,所述真实环境被划分为多个网格,所述真实环境中包括至少一个机器人,所述状态信息用于指示所述真实环境以及所述至少一个机器人的状态;
[0017]输入模块,用于将所述状态信息输入至训练后的强化学习策略,所述强化学习策略经过在仿真环境中训练后直接迁移至所述真实环境使用;
[0018]生成模块,用于通过所述强化学习策略根据所述状态信息,生成针对所述机器人的控制信息,所述控制信息用于控制所述机器人在所述网格之间进行移动。
[0019]根据本申请实施例的一个方面,提供了一种机器人的移动控制装置,所述装置包括:
[0020]获取模块,用于获取仿真环境在第一时间单元的状态信息,所述仿真环境被划分为多个网格,所述仿真环境中包括至少一个仿真机器人,所述状态信息用于指示所述仿真环境以及所述至少一个仿真机器人的状态;
[0021]生成模块,用于通过强化学习策略根据所述第一时间单元的状态信息,生成所述第一时间单元的控制信息,所述控制信息用于控制所述仿真机器人在所述网格之间进行移动;
[0022]确定模块,用于确定所述仿真机器人在执行所述第一时间单元的控制信息所指示的操作之后,所述仿真环境在第二时间单元的状态信息,所述第二时间单元是所述第一时间单元的下一个时间单元;
[0023]调参模块,用于根据基于所述状态信息和所述动作信息计算得到的损失函数值,对所述强化学习策略的参数进行调整,得到训练后的强化学习策略;其中,所述训练后的强化学习策略用于直接迁移至真实环境中使用。
[0024]根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述机器人的移动控制方法。
[0025]根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述机器人的移动控制方法。
[0026]根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机程序,以实现上述机器人的移动控制方法。
[0027]本申请实施例提供的技术方案至少包括如下有益效果:
[0028]通过将环境划分为多个网格,然后通过强化学习策略根据状态信息生成用于控制机器人在上述网格之间移动的控制信息,这样就可以将机器人的动作简化为有限的控制指令,避免了由于域随机化处理的参数设置不合理和不足以覆盖真实环境多样性而导致的性能下降问题,达到了将强化学习策略从仿真环境直接迁移到真实环境中使用,而不影响其性能的技术效果。
附图说明
[0029]图1是本申请一个实施例提供的方案实施环境的示意图;
[0030]图2是本申请一个实施例提供的机器人的移动控制方法的流程图;
[0031]图3是本申请一个实施例提供的5种控制指令控制机器人移动的示意图;
[0032]图4是本申请一个实施例提供的同步执行和异步执行的示意图;
[0033]图5是本申请一个实施例提供的机器人速度控制的示意图;
[0034]图6是本申请另一个实施例提供的机器人的移动控制方法的流程图;
[0035]图7是本申请一个实施例提供的机器人的移动控制装置的示意图;
[0036]图8是本申请另一个实施例提供的机器人的移动控制装置的示意图;
[0037]图9是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
[0038]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0039]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器人的移动控制方法,其特征在于,所述方法包括:获取真实环境的状态信息,所述真实环境被划分为多个网格,所述真实环境中包括至少一个机器人,所述状态信息用于指示所述真实环境以及所述至少一个机器人的状态;将所述状态信息输入至训练后的强化学习策略,所述强化学习策略经过在仿真环境中训练后直接迁移至所述真实环境使用;通过所述强化学习策略根据所述状态信息,生成针对所述机器人的控制信息,所述控制信息用于控制所述机器人在所述网格之间进行移动。2.根据权利要求1所述的方法,其特征在于,所述控制信息包括所述至少一个机器人分别对应的控制指令,所述控制指令用于控制所述机器人执行以下操作中的一种:向前移动、向后移动、向左移动、向右移动、停止。3.根据权利要求2所述的方法,其特征在于,所述通过所述强化学习策略根据所述状态信息,生成针对所述机器人的控制信息之后,还包括:对于每一个机器人,向所述机器人对应的控制设备发送所述机器人对应的控制指令,所述控制指令用于转换为对所述机器人进行移动控制的速度。4.根据权利要求2所述的方法,其特征在于,所述机器人的数量为多个,多个所述机器人异步执行各自对应的控制指令;所述方法还包括:当多个所述机器人中的第一机器人,在第一时间单元完成所述第一机器人对应的控制指令时,获取所述真实环境在所述第一时间单元的状态信息;通过所述强化学习策略根据所述第一时间单元的状态信息,生成所述第一机器人在第二时间单元对应的控制指令,所述第二时间单元是所述第一时间单元的下一个时间单元。5.根据权利要求1至4任一项所述的方法,其特征在于,所述通过所述强化学习策略根据所述状态信息,生成针对所述机器人的控制信息,包括:通过所述强化学习策略根据所述状态信息,得到至少两步动作信息,每一步动作信息包括所述至少一个机器人分别对应的动作数据,所述动作数据用于指示所述机器人是否移动以及在移动的情况下所述机器人的移动方向;根据所述至少两步动作信息,确定下一步的控制信息,所述下一步的控制信息包括所述至少一个机器人分别对应的控制指令,所述控制指令包括方向控制指令和速度控制指令,所述方向控制指令用于指示所述机器人是否移动以及在移动的情况下所述机器人的移动方向,所述速度控制指令用于指示所述机器人移动至下一个网格后的速度是否变为零。6.根据权利要求5所述的方法,其特征在于,所述通过所述强化学习策略根据所述状态信息,得到至少两步动作信息,包括:通过所述强化学习策略根据所述状态信息,得到下一步的动作信息;根据所述下一步的动作信息,预测得到所述真实环境的新的状态信息;其中,所述新的状态信息是所述真实环境在所述机器人执行所述下一步的动作信息之后的状态信息;通过所述强化学习策略根据所述新的状态信息,得到再下一步的动作信息。7.根据权利要求6所述的方法,其特征在于,所述根据所述至少两步动作信息,确定下一步的控制信息,包括:对于每一个机器人,获取所述机器人的第一动作数据和第二动作数据;其中,所述第一动作数据是指所述下一步的动作信息中包括的所述机器人对应的动作数据,所述第二动作
数据是指所述再下一步的动作信息中包括的所述机器人对应的动作数据;若所述第一动作数据和所述第二动作数据均指示所述机器人移动且移动方向相同,则将所述第一动作数据确定为所述机器人对应的方向控制指令,以及确定所述机器人对应的速度控制指令为指示所述机器人移动至下一个网格后的速度不变为零;若所述第一动作数据和所述第二动作数据中的至少之一指示所述机器人不移动,或者所述第一动作数据和所述第二动作数据均指示所述机器人移动且移动方向不同,则将所述第一动作数据确定为所述机器人对应的方向控制指令,以及确定所述机器人对应的速度控制指令为指示所述机器人移动至下一个网格后的速度变为零;根据各个所述机器人对应的方向控制指令和速度控制指令,得到所述下一步的控制信息。8.一种机器人的移动控制方法,其特征在于,所述方法包括:获取仿真环境在第一时间单元的状态信息,所述仿真环境被划分为多个网格,所述仿真环境中包括至少一个仿真机器人,所述状态信息用于指示所述仿真环境以及所述至少一个仿真机器人的状态;通过强化学习策略根据所述第一时间单元的状态信息,生成所述第一时间单元的控制信息,所述控制信息用于控制所述仿真机器人在所述网格之间进行移动;确定所述仿真机器人在执行所述第一时间单元的控制信息所指示的操作之后,所述仿真环境在第二时间单元的状态信息,所述第二时间单元是所述第一时间单元的下一个时间单元;根据基于所述状态信息和所述动作信息计算得到的损失函数值,对所述强化学习策略的参数进行调整,得到训练后的强化学习策略;其中,所述训练后的强化学习策略用于直接迁移至真实环境中使用。9.根据权利要求8所述的方法,其特征在于,所述控制信息包括所述至少一个仿真机器人分别对应的控制指令,所述控制指令用于控制所述仿真机器人执行以下操作中的一种:向前移动、向后移动、向左移动、向右移动、停止。10.根据权利要求9所述的方法,其特征在于,所述仿真机器人的数量为多个,所述确定所述仿真机器人在执行所述第一时间单元的控制信息所指示的操作之后,所述仿真环境在第二时间单元的状态信息,包括:随机确定多个所述仿真机器人分别对应的概率值,所述概率值用于确定所述仿真机器人执行或不执行对应的...

【专利技术属性】
技术研发人员:张亦正李珽光韩磊周城
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1