数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39424646 阅读:13 留言:0更新日期:2023-11-19 16:11
本申请实施例公开了一种数据处理方法、装置、电子设备及存储介质,该方法包括:根据场景配置文件构建仿真场景,仿真场景包括动作空间连续的智能体以及动作空间离散的智能体;根据强化学习模型的输出确定各个智能体的动作指令,在同一个时间轴中,每当达到智能体的控制时间步时,控制智能体执行对应的动作指令,进而确定场景观测信息以及奖励值,强化学习模型可以基于场景观测信息和奖励值进行训练,通过构建多种动作空间混合的仿真场景能够提供真实性较高的测试环境,从而提升强化学习的训练效果,所以,仿真场景能够提供真实性较高的测试环境,从而提高强化学习的效果,可广泛应用于云技术、人工智能、智慧交通、辅助驾驶等场景。景。景。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,特别是涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着机器人越来越多地应用在工业和服务行业的不同任务需求中,多机器人协作技术变得愈发重要,相应地,可以基于现实世界的多机器人系统构建仿真场景,然后利用强化学习方法,使智能体在仿真场景中自主学习并完成指定的任务。
[0003]目前,仿真场景是基于指定的任务构建的,不同的任务需要构建不同的仿真场景,随着任务的复杂性和多样性日益提升,传统的仿真场景无法提供真实性较高的测试环境,影响了强化学习的效果。

技术实现思路

[0004]以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质,能够提供真实性较高的测试环境,从而提高强化学习的效果。
[0006]一方面,本申请实施例提供了一种数据处理方法,包括:
[0007]获取场景配置文件,根据所述场景配置文件构建仿真场景,其中,所述仿真场景包括动作空间连续的智能体以及动作空间离散的智能体;
[0008]根据强化学习模型的输出确定各个所述智能体的动作指令,在同一个时间轴中,每当达到所述智能体的控制时间步时,控制所述智能体执行对应的所述动作指令;
[0009]获取执行所述动作指令后所述仿真场景的场景观测信息,根据所述场景观测信息确定执行所述动作指令所产生的奖励值;
[0010]将所述奖励值和所述场景观测信息发送至所述强化学习模型,其中,所述奖励值和所述观测信息用于对所述强化学习模型进行训练。
[0011]另一方面,本申请实施例还提供了一种数据处理装置,包括:
[0012]构建模块,用于获取场景配置文件,根据所述场景配置文件构建仿真场景,其中,所述仿真场景包括动作空间连续的智能体以及动作空间离散的智能体;
[0013]执行模块,用于根据强化学习模型的输出确定各个所述智能体的动作指令,在同一个时间轴中,每当达到所述智能体的控制时间步时,控制所述智能体执行对应的所述动作指令;
[0014]确定模块,用于获取执行所述动作指令后所述仿真场景的场景观测信息,根据所述场景观测信息确定执行所述动作指令所产生的奖励值;
[0015]发送模块,用于将所述奖励值和所述场景观测信息发送至所述强化学习模型,其中,所述奖励值和所述观测信息用于对所述强化学习模型进行训练。
[0016]进一步,动作空间连续的所述智能体与动作空间离散的所述智能体均被配置相同的所述控制时间步,上述执行模块具体用于:
[0017]在同一个时间轴中,每当达到所述智能体的控制时间步时,获取各个所述智能体的控制频率;
[0018]根据所述控制频率控制所述智能体执行对应的所述动作指令。
[0019]进一步,对于动作空间连续的所述智能体,上述执行模块具体用于:
[0020]当所述控制频率所指示的控制时间间隔小于相邻两个所述控制时间步之间的时间间隔时,根据所述控制频率将对应的所述动作指令分解成多个子指令;
[0021]在相邻的两个所述控制时间步之间,控制所述智能体依次执行多个所述子指令。
[0022]进一步,所述场景配置文件包括场景信息、智能体信息和环境元素信息,上述构建模块具体用于:
[0023]根据所述场景信息构建包括多个候选网格的仿真场景;
[0024]根据所述智能体信息在多个所述候选网格中确定各个所述智能体所在的第一目标网格,将所述智能体添加至对应的所述第一目标网格;
[0025]根据所述环境元素信息在多个所述候选网格中确定各个环境元素所在的第二目标网格,将所述环境元素添加至对应的所述第二目标网格,其中,所述环境元素用于确定所述奖励值。
[0026]进一步,所述环境元素包括待组合的物体块和坡体,上述确定模块具体用于:
[0027]根据所述场景观测信息,确定所述仿真场景中的目标组合体与预设的参考组合体之间的相似度,其中,所述目标组合体由动作空间连续的所述智能体以及动作空间离散的所述智能体在执行所述动作指令时,共同对所述物体块和所述坡体进行组合后得到;
[0028]根据所述相似度确定执行所述动作指令所产生的奖励值。
[0029]进一步,上述确定模块具体用于:
[0030]根据所述场景观测信息确定所述目标组合体的尺寸数据;
[0031]获取预设的复杂度映射信息,其中,所述复杂度映射信息用于指示所述尺寸数据与组合体复杂度之间的映射关系;
[0032]根据所述尺寸数据在所述复杂度映射信息中匹配得到所述目标组合体的所述组合体复杂度;
[0033]根据所述相似度以及所述组合体复杂度确定执行所述动作指令所产生的奖励值。
[0034]进一步,所述环境元素包括待搬运对象,上述确定模块具体用于:
[0035]根据所述场景观测信息确定所述待搬运对象当前的当前位置,其中,所述当前位置为动作空间连续的所述智能体以及动作空间离散的所述智能体在执行所述动作指令时,交替对所述待搬运对象进行搬运后所述待搬运对象所在的位置;
[0036]根据所述当前位置与预设的参考位置之间的位置关系,确定执行所述动作指令所产生的奖励值。
[0037]进一步,上述构建模块还用于:
[0038]渲染所述仿真场景,在所述仿真场景的显示界面中显示调整控件,其中,所述调整控件用于对所述智能体或者所述环境元素进行调整;
[0039]响应于与所述调整控件的交互,确定更新后的所述智能体信息或者所述环境元素
信息;
[0040]根据更新后的所述智能体信息或者所述环境元素信息,对所述场景配置文件进行更新。
[0041]进一步,所述强化学习模型的输出为所述智能体在所述仿真场景中的目标位置,上述执行模块具体用于:
[0042]根据所述目标位置确定所述智能体的目标移动路径;
[0043]根据所述目标移动路径确定所述智能体的动作指令。
[0044]进一步,上述执行模块具体用于:
[0045]根据所述智能体在所述仿真场景中的初始位置以及所述智能体的移动方向,在所述仿真场景中确定至少一个候选位置;
[0046]确定所述候选位置与所述初始位置之间的实际代价,以及确定所述候选位置与所述目标位置之间的预测代价,根据所述实际代价和所述预测代价确定总代价,基于所述总代价在至少一个所述候选位置中确定待移动位置;
[0047]将所述待移动位置作为新的所述初始位置,再次确定新的所述候选位置并基于所述总代价再次在至少一个新的所述候选位置中确定待移动位置,直至所述待移动位置为所述目标位置,依次连接所述待移动位置得到目标移动路径。
[0048]进一步,上述执行模块还用于:
[0049]基于预先配置的动作条件对待执行的所述动作指令进行合法性检测;...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取场景配置文件,根据所述场景配置文件构建仿真场景,其中,所述仿真场景包括动作空间连续的智能体以及动作空间离散的智能体;根据强化学习模型的输出确定各个所述智能体的动作指令,在同一个时间轴中,每当达到所述智能体的控制时间步时,控制所述智能体执行对应的所述动作指令;获取执行所述动作指令后所述仿真场景的场景观测信息,根据所述场景观测信息确定执行所述动作指令所产生的奖励值;将所述奖励值和所述场景观测信息发送至所述强化学习模型,其中,所述奖励值和所述观测信息用于对所述强化学习模型进行训练。2.根据权利要求1所述的数据处理方法,其特征在于,动作空间连续的所述智能体与动作空间离散的所述智能体均被配置相同的所述控制时间步,所述在同一个时间轴中,每当达到所述智能体的控制时间步时,控制所述智能体执行对应的所述动作指令,包括:在同一个时间轴中,每当达到所述智能体的控制时间步时,获取各个所述智能体的控制频率;根据所述控制频率控制所述智能体执行对应的所述动作指令。3.根据权利要求2所述的数据处理方法,其特征在于,对于动作空间连续的所述智能体,所述根据所述控制频率控制所述智能体执行对应的所述动作指令,包括:当所述控制频率所指示的控制时间间隔小于相邻两个所述控制时间步之间的时间间隔时,根据所述控制频率将对应的所述动作指令分解成多个子指令;在相邻的两个所述控制时间步之间,控制所述智能体依次执行多个所述子指令。4.根据权利要求1所述的数据处理方法,其特征在于,所述场景配置文件包括场景信息、智能体信息和环境元素信息,所述根据所述场景配置文件构建仿真场景,包括:根据所述场景信息构建包括多个候选网格的仿真场景;根据所述智能体信息在多个所述候选网格中确定各个所述智能体所在的第一目标网格,将所述智能体添加至对应的所述第一目标网格;根据所述环境元素信息在多个所述候选网格中确定各个环境元素所在的第二目标网格,将所述环境元素添加至对应的所述第二目标网格,其中,所述环境元素用于确定所述奖励值。5.根据权利要求4所述的数据处理方法,其特征在于,所述环境元素包括待组合的物体块和坡体,所述根据所述场景观测信息确定执行所述动作指令所产生的奖励值,包括:根据所述场景观测信息,确定所述仿真场景中的目标组合体与预设的参考组合体之间的相似度,其中,所述目标组合体由动作空间连续的所述智能体以及动作空间离散的所述智能体在执行所述动作指令时,共同对所述物体块和所述坡体进行组合后得到;根据所述相似度确定执行所述动作指令所产生的奖励值。6.根据权利要求5所述的数据处理方法,其特征在于,所述根据所述相似度确定执行所述动作指令所产生的奖励值,包括:根据所述场景观测信息确定所述目标组合体的尺寸数据;获取预设的复杂度映射信息,其中,所述复杂度映射信息用于指示所述尺寸数据与组合体复杂度之间的映射关系;
根据所述尺寸数据在所述复杂度映射信息中匹配得到所述目标组合体的所述组合体复杂度;根据所述相似度以及所述组合体复杂度确定执行所述动作指令所产生的奖励值。7.根据权利要求4所述的数据处理方法,其特征在于,所述环境元素包括待搬运对象,所述根据所述场景观测信息确定执行所述动作指令所产生的奖励值,包括:根据所述场景观测信息确定所述待搬运对象当前的当前位置,其中,所述当前位置为动作空间连续的所述智能体以及动作空间离散的所述智能体在执行所述动作...

【专利技术属性】
技术研发人员:张亦正
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1