辅助强化学习场景搭建的方法、装置、存储介质和系统制造方法及图纸

技术编号:42581946 阅读:14 留言:0更新日期:2024-09-03 18:00
本公开提供一种辅助强化学习场景搭建的方法、装置、存储介质和系统,所述方法包括:展示场景搭建页面;其中,场景搭建页面包括模块展示区和编辑区,模块展示区用于展示强化学习相关的功能模块,强化学习场景搭建过程被划分为多个功能片段,每个功能模块对应一个功能片段;响应于检测到用户将多个功能模块中的第一功能模块拖拽至编辑区,在编辑区中以可编辑的形式展示拖拽入的第一功能模块;响应于检测到用户对编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序;响应于检测到用户在编辑区中的第一功能模块中输入配置指令,根据配置指令对第一功能模块进行配置。可以提高强化学习平台的复用性并降低用户的操作门槛。

【技术实现步骤摘要】

本公开涉及机器学习领域,具体涉及一种辅助强化学习场景搭建的方法、装置、存储介质和系统


技术介绍

1、强化学习是机器学习的三大分支之一。在一个强化学习问题中,有一个决策者,我们通常称之为智能体(agent),它所交互的区域叫做环境(environment,env),它所处的当前环境称为状态(state),智能体会根据它所观察到的情况自己制定执行动作(action),根据智能体的执行动作,给智能体相应的奖励(reward)。智能体的目的就是如何在环境中采取一系列的行为,从而获得最大化的累积回报。强化学习的学习过程我们称之为推演,强化学习的推演过程是动态的、不断交互的过程,所需的数据也是通过与环境不断交互产生的。然而,目前的强化学习平台普遍存在复用性差的问题。


技术实现思路

1、本公开提供的辅助强化学习场景搭建的方法、装置、存储介质和系统,通过对强化学习场景搭建过程中的功能片段进行封装并搭建可视化操作平台的方式,使得提高强化学习平台的复用性且降低用户的操作门槛。

2、根据本公开实施例的一个方面,提供一本文档来自技高网...

【技术保护点】

1.一种辅助强化学习场景搭建的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,包括:

3.如权利要求1所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,包括:

4.如权利要求3所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,还包括:

5.如权利要求1所述的方法,其特...

【技术特征摘要】

1.一种辅助强化学习场景搭建的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,包括:

3.如权利要求1所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,包括:

4.如权利要求3所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,还包括:

5.如权利要求1所述的方法,其特征在于,还包括:

6.如权利要求1所述的方法,其特征在于,所述配置包括以下项中的至少一项:仿真环境配置,智能体配置,状态配...

【专利技术属性】
技术研发人员:徐昀郜婕
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1