数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39424646 阅读：13 留言：0更新日期：2023-11-19 16:11

本申请实施例公开了一种数据处理方法、装置、电子设备及存储介质，该方法包括：根据场景配置文件构建仿真场景，仿真场景包括动作空间连续的智能体以及动作空间离散的智能体；根据强化学习模型的输出确定各个智能体的动作指令，在同一个时间轴中，每当达到智能体的控制时间步时，控制智能体执行对应的动作指令，进而确定场景观测信息以及奖励值，强化学习模型可以基于场景观测信息和奖励值进行训练，通过构建多种动作空间混合的仿真场景能够提供真实性较高的测试环境，从而提升强化学习的训练效果，所以，仿真场景能够提供真实性较高的测试环境，从而提高强化学习的效果，可广泛应用于云技术、人工智能、智慧交通、辅助驾驶等场景。景。景。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质

[0001]本申请涉及人工智能
，特别是涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着机器人越来越多地应用在工业和服务行业的不同任务需求中，多机器人协作技术变得愈发重要，相应地，可以基于现实世界的多机器人系统构建仿真场景，然后利用强化学习方法，使智能体在仿真场景中自主学习并完成指定的任务。
[0003]目前，仿真场景是基于指定的任务构建的，不同的任务需要构建不同的仿真场景，随着任务的复杂性和多样性日益提升，传统的仿真场景无法提供真实性较高的测试环境，影响了强化学习的效果。

技术实现思路

[0004]以下是对本申请详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0005]本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质，能够提供真实性较高的测试环境，从而提高强化学习的效果。
[0006]一方面，本申请实施例提供了一种数据处理方法，包括：
[0007]获取场景配置文件，根据所述场景配置文件构建仿真场景，其中，所述仿真场景包括动作空间连续的智能体以及动作空间离散的智能体；
[0008]根据强化学习模型的输出确定各个所述智能体的动作指令，在同一个时间轴中，每当达到所述智能体的控制时间步时，控制所述智能体执行对应的所述动作指令；
[0009]获取执行所述动作指令后所述仿真场景的场景观测信息，根据所述场景观测信息确定执行所述动作指令所产生的奖励值；
[0

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取场景配置文件，根据所述场景配置文件构建仿真场景，其中，所述仿真场景包括动作空间连续的智能体以及动作空间离散的智能体；根据强化学习模型的输出确定各个所述智能体的动作指令，在同一个时间轴中，每当达到所述智能体的控制时间步时，控制所述智能体执行对应的所述动作指令；获取执行所述动作指令后所述仿真场景的场景观测信息，根据所述场景观测信息确定执行所述动作指令所产生的奖励值；将所述奖励值和所述场景观测信息发送至所述强化学习模型，其中，所述奖励值和所述观测信息用于对所述强化学习模型进行训练。2.根据权利要求1所述的数据处理方法，其特征在于，动作空间连续的所述智能体与动作空间离散的所述智能体均被配置相同的所述控制时间步，所述在同一个时间轴中，每当达到所述智能体的控制时间步时，控制所述智能体执行对应的所述动作指令，包括：在同一个时间轴中，每当达到所述智能体的控制时间步时，获取各个所述智能体的控制频率；根据所述控制频率控制所述智能体执行对应的所述动作指令。3.根据权利要求2所述的数据处理方法，其特征在于，对于动作空间连续的所述智能体，所述根据所述控制频率控制所述智能体执行对应的所述动作指令，包括：当所述控制频率所指示的控制时间间隔小于相邻两个所述控制时间步之间的时间间隔时，根据所述控制频率将对应的所述动作指令分解成多个子指令；在相邻的两个所述控制时间步之间，控制所述智能体依次执行多个所述子指令。4.根据权利要求1所述的数据处理方法，其特征在于，所述场景配置文件包括场景信息、智能体信息和环境元素信息，所述根据所述场景配置文件构建仿真场景，包括：根据所述场景信息构建包括多个候选网格的仿真场景；根据所述智能体信息在多个所述候选网格中确定各个所述智能体所在的第一目标网格，将所述智能体添加至对应的所述第一目标网格；根据所述环境元素信息在多个所述候选网格中确定各个环境元素所在的第二目标网格，将所述环境元素添加至对应的所述第二目标网格，其中，所述环境元素用于确定所述奖励值。5.根据权利要求4所述的数据处理方法，其特征在于，所述环境元素包括待组合的物体块和坡体，所述根据所述场景观测信息确定执行所述动作指令所产生的奖励值，包括：根据所述场景观测信息，确定所述仿真场景中的目标组合体与预设的参考组合体之间的相似度，其中，所述目标组合体由动作空间连续的所述智能体以及动作空间离散的所述智能体在执行所述动作指令时，共同对所述物体块和所述坡体进行组合后得到；根据所述相似度确定执行所述动作指令所产生的奖励值。6.根据权利要求5所述的数据处理方法，其特征在于，所述根据所述相似度确定执行所述动作指令所产生的奖励值，包括：根据所述场景观测信息确定所述目标组合体的尺寸数据；获取预设的复杂度映射信息，其中，所述复杂度映射信息用于指示所述尺寸数据与组合体复杂度之间的映射关系；
根据所述尺寸数据在所述复杂度映射信息中匹配得到所述目标组合体的所述组合体复杂度；根据所述相似度以及所述组合体复杂度确定执行所述动作指令所产生的奖励值。7.根据权利要求4所述的数据处理方法，其特征在于，所述环境元素包括待搬运对象，所述根据所述场景观测信息确定执行所述动作指令所产生的奖励值，包括：根据所述场景观测信息确定所述待搬运对象当前的当前位置，其中，所述当前位置为动作空间连续的所述智能体以及动作空间离散的所述智能体在执行所述动作...

【专利技术属性】
技术研发人员：张亦正，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人