当前位置: 首页 > 专利查询>之江实验室专利>正文

一种强化学习模型构建方法、装置、存储介质及电子设备制造方法及图纸

技术编号:39414452 阅读:6 留言:0更新日期:2023-11-19 16:05
本说明书公开了一种强化学习模型构建方法、装置、存储介质及电子设备。可以通过指定强化学习模型框架中为用户提供的各种类型不同的组件,使得用户仅需要选择组件、配置组件初始的参数和变量、编辑函数体组件中的逻辑、配置行为时间规则后,通过触发JEP执行器运行代码从而训练用户定义的强化学习模型,从而可以提升用户构建强化学习模型的效率。提升用户构建强化学习模型的效率。提升用户构建强化学习模型的效率。

【技术实现步骤摘要】
一种强化学习模型构建方法、装置、存储介质及电子设备


[0001]本说明书涉及强化学习
,尤其涉及一种强化学习模型构建方法、装置、存储介质及电子设备。

技术介绍

[0002]随着计算机技术的发展,强化学习模型在诸如:人工智能、机器人控制等领域中得到广泛的应用。
[0003]通常情况下,由于强化学习模型由智能体、环境、状态、行为、模块等复杂的组成部分构成,使得用户在构建强化学习模型时,需要花费较多时间构建各种复杂的元素、状态、模块,并且在构建强化学习模型的过程中极易出现错误,例如:遗漏了构建强化学习模型所需的某个组成部分的错误,从而使得用户还需要花费大量时间进行纠错以及调试,进而使得强化学习模型的构建效率极低。
[0004]因此,如何提升用户构建强化学习模型的效率,则是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种强化学习模型构建方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:本说明书提供了一种强化学习模型构建方法,所述方法应用于指定强化学习框架,所述方法包括:获取用户在所述指定强化学习框架中输入的各操作指令;根据所述各操作指令,确定构建强化学习模型所需的各组件,所述各组件包括:智能体组件、全局环境组件、函数体组件、训练组件、行为时间规则组件;根据行为时间规则组件,确定构建所述强化学习模型所需的各行为之间的先后顺序,所述各行为包括:赋值行为、位移行为、训练行为,其中,所述赋值行为用于对所述智能体组件、所述全局环境组件进行配置,所述位移行为用于通过所述智能体组件执行指定动作以及用于通过预设的可视化组件对所述各组件的数据进行展示,所述训练行为用于对所述训练组件进行配置;根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件,以构建初始强化学习模型,并对所述初始强化学习模型进行训练,得到目标强化学习模型。
[0007]可选地,所述智能体组件以及所述全局环境组件包括:参数组件、变量组件;根据所述各操作指令,确定构建强化学习模型所需的各组件,具体包括:根据所述各操作指令,确定构建强化学习模型所需的智能体组件和全局环境组件,并确定每个所述智能体组件以及所述全局环境组件中包含的参数组件和变量组件。
[0008]可选地,根据行为时间规则组件,确定构建所述强化学习模型所需的各行为之间的先后顺序,具体包括:
针对每种组件,从预设的各检测方法中确定出与该种组件相匹配的检测方法,作为目标检测方法,并通过所述目标检测方法,对该种组件进行检测;根据各组件的检测结果,判断所述各组件中是否存在异常组件;若否,则根据行为时间规则组件,确定构建所述强化学习模型所需的各行为之间的先后顺序。
[0009]可选地,根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件之前,所述方法还包括:判断各行为对应的函数体组件运行所需的依赖包是否存在;若否,则向指定设备返回异常信息;根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件,具体包括:若各行为对应的函数体组件运行所需的依赖包均存在,则获取各行为对应的函数体组件运行所需的依赖包并加载;在确定各行为对应的函数体组件运行所需的依赖包加载完成后,根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件。
[0010]可选地,根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件之前,所述方法还包括:若构建所述强化学习模型所需的所述智能体组件的数量超过预设阈值,则从各所述智能体组件中抽样得到各目标智能体组件;根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件,具体包括:根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件,并针对所述目标智能体组件,将所述目标智能体组件中包含的变量组件的值通过预设的可视化组件进行展示。
[0011]可选地,对所述初始强化学习模型进行训练,得到目标强化学习模型,具体包括:若所述训练行为的数量大于一,则针对每个训练行为,通过该训练行为配置得到候选强化学习训练板块,所述候选强化学习训练板块包括:观测子板块、奖励惩罚子板块、动作子板块、训练环境子板块、训练网络子板块、启动/终止条件子板块;通过每个候选强化学习训练板块,对所述初始强化学习模型进行训练,得到目标强化学习模型。
[0012]可选地,通过每个候选强化学习训练板块,对所述初始强化学习模型进行训练,得到目标强化学习模型,具体包括:针对每个候选强化学习训练板块,通过该候选强化学习训练板块对所述初始强化学习模型进行训练,得到该候选强化学习训练板块对应的候选强化学习模型;根据每个候选强化学习模型的输出结果,从各候选强化学习模型中确定出目标强化学习模型。
[0013]本说明书提供了一种强化学习模型构建装置,包括:获取模块,用于获取用户在指定强化学习框架中输入的各操作指令;第一确定模块,用于根据所述各操作指令,确定构建强化学习模型所需的各组件,所述各组件包括:智能体组件、全局环境组件、函数体组件、训练组件、行为时间规则组件;第二确定模块,用于根据行为时间规则组件,确定构建所述强化学习模型所需的
各行为之间的先后顺序,所述各行为包括:赋值行为、位移行为、训练行为,其中,所述赋值行为用于对所述智能体组件、所述全局环境组件进行配置,所述位移行为用于通过所述智能体组件执行指定动作以及用于通过预设的可视化组件对所述各组件的数据进行展示,所述训练行为用于对所述训练组件进行配置;训练模块,用于根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件,以构建初始强化学习模型,并对所述初始强化学习模型进行训练,得到目标强化学习模型。
[0014]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述强化学习模型构建方法。
[0015]本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述强化学习模型构建方法。
[0016]本说明书采用的上述至少一个技术方案能够达到以下有益效果:在本说明书提供的强化学习模型构建方法中,首先获取用户在指定强化学习框架中输入的各操作指令,根据各操作指令,确定构建强化学习模型所需的各组件,其中,各组件包括:智能体组件、全局环境组件、函数体组件、训练组件、行为时间规则组件,根据行为时间规则组件,确定构建强化学习模型所需的各行为之间的先后顺序,各行为包括:赋值行为、位移行为、训练行为,其中,赋值行为用于对智能体组件、全局环境组件进行配置,位移行为用于通过智能体组件执行指定动作以及用于通过预设的可视化组件对各组件的数据进行展示,训练行为用于对训练组件进行配置,根据各行为之间的先后顺序,运行每个行为对应的函数体组件,以构建初始强化学习模型,并对初始强化学习模型进行训练,得到目标强化学习模型。
[0017]从上述方法可以看出,可以通过预设的指定强化学习框架,使得用户可以以低代码的形式选取用于构建强化学习模型所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种强化学习模型构建方法,其特征在于,所述方法应用于指定强化学习框架,所述方法包括:获取用户在所述指定强化学习框架中输入的各操作指令;根据所述各操作指令,确定构建强化学习模型所需的各组件,所述各组件包括:智能体组件、全局环境组件、函数体组件、训练组件、行为时间规则组件;根据行为时间规则组件,确定构建所述强化学习模型所需的各行为之间的先后顺序,所述各行为包括:赋值行为、位移行为、训练行为,其中,所述赋值行为用于对所述智能体组件、所述全局环境组件中的变量进行赋值,所述位移行为用于通过所述智能体组件执行指定动作以及用于通过预设的可视化组件对所述各组件的数据进行展示,所述训练行为用于对所述训练组件进行配置;根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件,以构建初始强化学习模型以及对所述初始强化学习模型进行训练,得到目标强化学习模型,并通过所述目标强化学习模型进行任务执行。2.如权利要求1所述的方法,其特征在于,所述智能体组件以及所述全局环境组件包括:参数组件、变量组件;根据所述各操作指令,确定构建强化学习模型所需的各组件,具体包括:根据所述各操作指令,确定构建强化学习模型所需的智能体组件和全局环境组件,并确定每个所述智能体组件以及所述全局环境组件中包含的参数组件和变量组件。3.如权利要求1所述的方法,其特征在于,根据行为时间规则组件,确定构建所述强化学习模型所需的各行为之间的先后顺序,具体包括:针对每种组件,从预设的各检测方法中确定出与该种组件相匹配的检测方法,作为目标检测方法,并通过所述目标检测方法,对该种组件进行检测;根据各组件的检测结果,判断所述各组件中是否存在异常组件;若否,则根据行为时间规则组件,确定构建所述强化学习模型所需的各行为之间的先后顺序。4.如权利要求1所述的方法,其特征在于,根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件之前,所述方法还包括:判断各行为对应的函数体组件运行所需的依赖包是否存在;若否,则向指定设备返回异常信息;根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件,具体包括:若各行为对应的函数体组件运行所需的依赖包均存在,则获取各行为对应的函数体组件运行所需的依赖包并加载;在确定各行为对应的函数体组件运行所需的依赖包加载完成后,根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件。5.如权利要求1所述的方法,其特征在于,根据所述各行为之间的先后顺序,运行每个行为对应的函数体组件之前,所述方法还包括:若构建所述强化学习模型所需的所述智能体组件...

【专利技术属性】
技术研发人员:王永恒董子铭曾洪海肖恒进巫英才王超陈卫邵彬韩珺婷鲁艺金星张杨
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1