【技术实现步骤摘要】
本公开涉及机器学习领域,具体涉及一种辅助强化学习场景搭建的方法、装置、存储介质和系统。
技术介绍
1、强化学习是机器学习的三大分支之一。在一个强化学习问题中,有一个决策者,我们通常称之为智能体(agent),它所交互的区域叫做环境(environment,env),它所处的当前环境称为状态(state),智能体会根据它所观察到的情况自己制定执行动作(action),根据智能体的执行动作,给智能体相应的奖励(reward)。智能体的目的就是如何在环境中采取一系列的行为,从而获得最大化的累积回报。强化学习的学习过程我们称之为推演,强化学习的推演过程是动态的、不断交互的过程,所需的数据也是通过与环境不断交互产生的。然而,目前的强化学习平台普遍存在复用性差的问题。
技术实现思路
1、本公开提供的辅助强化学习场景搭建的方法、装置、存储介质和系统,通过对强化学习场景搭建过程中的功能片段进行封装并搭建可视化操作平台的方式,使得提高强化学习平台的复用性且降低用户的操作门槛。
2、根据本公开实施
...【技术保护点】
1.一种辅助强化学习场景搭建的方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,包括:
3.如权利要求1所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,包括:
4.如权利要求3所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,还包括:
5.如权利要
...【技术特征摘要】
1.一种辅助强化学习场景搭建的方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,包括:
3.如权利要求1所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,包括:
4.如权利要求3所述的方法,其特征在于,所述响应于检测到用户对所述编辑区中各功能模块的关联关系操作,确定各功能模块对应的功能片段之间的执行顺序,还包括:
5.如权利要求1所述的方法,其特征在于,还包括:
6.如权利要求1所述的方法,其特征在于,所述配置包括以下项中的至少一项:仿真环境配置,智能体配置,状态配...
【专利技术属性】
技术研发人员:徐昀,郜婕,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。