【技术实现步骤摘要】
机器人的移动控制方法、装置、设备及存储介质
[0001]本申请涉及人工智能
,特别涉及一种机器人的移动控制方法、装置、设备及存储介质。
技术介绍
[0002]机器人的移动控制应用于各种场景中,涉及地面、空中、水下和外太空等场景。在工业领域,机器人的移动控制可以应用于仓储物流搬运、工厂不同工位物料运输、大型零件加工或者焊接、长距离物体检测抓取等场景,旨在提高工作效率,减少人力成本,以及减少工作的危险。
[0003]在研究机器人的移动控制方法时,往往采用在仿真环境中训练机器人的移动控制策略,再将该策略迁移到真实环境的方法。然而在仿真环境中学习到的策略由于存在Sim to Real Gap(Simulation
‑
to
‑
Reality Gap,模拟与现实之间的差距),通常无法直接迁移到真实环境中。因此,在相关技术中,通常对仿真环境进行随机化处理,即在仿真环境中加入必要的随机噪声,以模拟真实环境中的不确定性。
[0004]上述相关技术提供的在仿真环境中加入必要的随机噪声,这种方法非常依赖人类经验来设定随机噪声的类型和强度,因此可能会导致从仿真环境中迁移的移动控制策略在真实环境中的性能下降。
技术实现思路
[0005]本申请实施例提供了一种机器人的移动控制方法、装置、设备及存储介质。本申请实施例提供的技术方案如下:
[0006]根据本申请实施例的一个方面,提供了一种机器人的移动控制方法,所述方法包括:
[0007]获取真实环境的状态信息 ...
【技术保护点】
【技术特征摘要】
1.一种机器人的移动控制方法,其特征在于,所述方法包括:获取真实环境的状态信息,所述真实环境被划分为多个网格,所述真实环境中包括至少一个机器人,所述状态信息用于指示所述真实环境以及所述至少一个机器人的状态;将所述状态信息输入至训练后的强化学习策略,所述强化学习策略经过在仿真环境中训练后直接迁移至所述真实环境使用;通过所述强化学习策略根据所述状态信息,生成针对所述机器人的控制信息,所述控制信息用于控制所述机器人在所述网格之间进行移动。2.根据权利要求1所述的方法,其特征在于,所述控制信息包括所述至少一个机器人分别对应的控制指令,所述控制指令用于控制所述机器人执行以下操作中的一种:向前移动、向后移动、向左移动、向右移动、停止。3.根据权利要求2所述的方法,其特征在于,所述通过所述强化学习策略根据所述状态信息,生成针对所述机器人的控制信息之后,还包括:对于每一个机器人,向所述机器人对应的控制设备发送所述机器人对应的控制指令,所述控制指令用于转换为对所述机器人进行移动控制的速度。4.根据权利要求2所述的方法,其特征在于,所述机器人的数量为多个,多个所述机器人异步执行各自对应的控制指令;所述方法还包括:当多个所述机器人中的第一机器人,在第一时间单元完成所述第一机器人对应的控制指令时,获取所述真实环境在所述第一时间单元的状态信息;通过所述强化学习策略根据所述第一时间单元的状态信息,生成所述第一机器人在第二时间单元对应的控制指令,所述第二时间单元是所述第一时间单元的下一个时间单元。5.根据权利要求1至4任一项所述的方法,其特征在于,所述通过所述强化学习策略根据所述状态信息,生成针对所述机器人的控制信息,包括:通过所述强化学习策略根据所述状态信息,得到至少两步动作信息,每一步动作信息包括所述至少一个机器人分别对应的动作数据,所述动作数据用于指示所述机器人是否移动以及在移动的情况下所述机器人的移动方向;根据所述至少两步动作信息,确定下一步的控制信息,所述下一步的控制信息包括所述至少一个机器人分别对应的控制指令,所述控制指令包括方向控制指令和速度控制指令,所述方向控制指令用于指示所述机器人是否移动以及在移动的情况下所述机器人的移动方向,所述速度控制指令用于指示所述机器人移动至下一个网格后的速度是否变为零。6.根据权利要求5所述的方法,其特征在于,所述通过所述强化学习策略根据所述状态信息,得到至少两步动作信息,包括:通过所述强化学习策略根据所述状态信息,得到下一步的动作信息;根据所述下一步的动作信息,预测得到所述真实环境的新的状态信息;其中,所述新的状态信息是所述真实环境在所述机器人执行所述下一步的动作信息之后的状态信息;通过所述强化学习策略根据所述新的状态信息,得到再下一步的动作信息。7.根据权利要求6所述的方法,其特征在于,所述根据所述至少两步动作信息,确定下一步的控制信息,包括:对于每一个机器人,获取所述机器人的第一动作数据和第二动作数据;其中,所述第一动作数据是指所述下一步的动作信息中包括的所述机器人对应的动作数据,所述第二动作
数据是指所述再下一步的动作信息中包括的所述机器人对应的动作数据;若所述第一动作数据和所述第二动作数据均指示所述机器人移动且移动方向相同,则将所述第一动作数据确定为所述机器人对应的方向控制指令,以及确定所述机器人对应的速度控制指令为指示所述机器人移动至下一个网格后的速度不变为零;若所述第一动作数据和所述第二动作数据中的至少之一指示所述机器人不移动,或者所述第一动作数据和所述第二动作数据均指示所述机器人移动且移动方向不同,则将所述第一动作数据确定为所述机器人对应的方向控制指令,以及确定所述机器人对应的速度控制指令为指示所述机器人移动至下一个网格后的速度变为零;根据各个所述机器人对应的方向控制指令和速度控制指令,得到所述下一步的控制信息。8.一种机器人的移动控制方法,其特征在于,所述方法包括:获取仿真环境在第一时间单元的状态信息,所述仿真环境被划分为多个网格,所述仿真环境中包括至少一个仿真机器人,所述状态信息用于指示所述仿真环境以及所述至少一个仿真机器人的状态;通过强化学习策略根据所述第一时间单元的状态信息,生成所述第一时间单元的控制信息,所述控制信息用于控制所述仿真机器人在所述网格之间进行移动;确定所述仿真机器人在执行所述第一时间单元的控制信息所指示的操作之后,所述仿真环境在第二时间单元的状态信息,所述第二时间单元是所述第一时间单元的下一个时间单元;根据基于所述状态信息和所述动作信息计算得到的损失函数值,对所述强化学习策略的参数进行调整,得到训练后的强化学习策略;其中,所述训练后的强化学习策略用于直接迁移至真实环境中使用。9.根据权利要求8所述的方法,其特征在于,所述控制信息包括所述至少一个仿真机器人分别对应的控制指令,所述控制指令用于控制所述仿真机器人执行以下操作中的一种:向前移动、向后移动、向左移动、向右移动、停止。10.根据权利要求9所述的方法,其特征在于,所述仿真机器人的数量为多个,所述确定所述仿真机器人在执行所述第一时间单元的控制信息所指示的操作之后,所述仿真环境在第二时间单元的状态信息,包括:随机确定多个所述仿真机器人分别对应的概率值,所述概率值用于确定所述仿真机器人执行或不执行对应的...
【专利技术属性】
技术研发人员:张亦正,李珽光,韩磊,周城,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。