一种强化学习模型构建方法、装置、存储介质及电子设备制造方法及图纸

技术编号：39414452 阅读：6 留言：0更新日期：2023-11-19 16:05

本说明书公开了一种强化学习模型构建方法、装置、存储介质及电子设备。可以通过指定强化学习模型框架中为用户提供的各种类型不同的组件，使得用户仅需要选择组件、配置组件初始的参数和变量、编辑函数体组件中的逻辑、配置行为时间规则后，通过触发JEP执行器运行代码从而训练用户定义的强化学习模型，从而可以提升用户构建强化学习模型的效率。提升用户构建强化学习模型的效率。提升用户构建强化学习模型的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种强化学习模型构建方法、装置、存储介质及电子设备

[0001]本说明书涉及强化学习
，尤其涉及一种强化学习模型构建方法、装置、存储介质及电子设备。

技术介绍

[0002]随着计算机技术的发展，强化学习模型在诸如：人工智能、机器人控制等领域中得到广泛的应用。
[0003]通常情况下，由于强化学习模型由智能体、环境、状态、行为、模块等复杂的组成部分构成，使得用户在构建强化学习模型时，需要花费较多时间构建各种复杂的元素、状态、模块，并且在构建强化学习模型的过程中极易出现错误，例如：遗漏了构建强化学习模型所需的某个组成部分的错误，从而使得用户还需要花费大量时间进行纠错以及调试，进而使得强化学习模型的构建效率极低。
[0004]因此，如何提升用户构建强化学习模型的效率，则是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种强化学习模型构建方法、装置、存储介质及电子设备，以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案：本说明书提供了一种强化学习模型构建方法，所述方法应用于指定强化学习框架，所述方法包括：获取用户在所述指定强化学习框架中输入的各操作指令；根据所述各操作指令，确定构建强化学习模型所需的各组件，所述各组件包括：智能体组件、全局环境组件、函数体组件、训练组件、行为时间规则组件；根据行为时间规则组件，确定构建所述强化学习模型所需的各行为之间的先后顺序，所述各行为包括：赋值行为、位移行为、训练行为，其中，所述赋值行为用于对所述智能体组件...

【技术保护点】

【技术特征摘要】
1.一种强化学习模型构建方法，其特征在于，所述方法应用于指定强化学习框架，所述方法包括：获取用户在所述指定强化学习框架中输入的各操作指令；根据所述各操作指令，确定构建强化学习模型所需的各组件，所述各组件包括：智能体组件、全局环境组件、函数体组件、训练组件、行为时间规则组件；根据行为时间规则组件，确定构建所述强化学习模型所需的各行为之间的先后顺序，所述各行为包括：赋值行为、位移行为、训练行为，其中，所述赋值行为用于对所述智能体组件、所述全局环境组件中的变量进行赋值，所述位移行为用于通过所述智能体组件执行指定动作以及用于通过预设的可视化组件对所述各组件的数据进行展示，所述训练行为用于对所述训练组件进行配置；根据所述各行为之间的先后顺序，运行每个行为对应的函数体组件，以构建初始强化学习模型以及对所述初始强化学习模型进行训练，得到目标强化学习模型，并通过所述目标强化学习模型进行任务执行。2.如权利要求1所述的方法，其特征在于，所述智能体组件以及所述全局环境组件包括：参数组件、变量组件；根据所述各操作指令，确定构建强化学习模型所需的各组件，具体包括：根据所述各操作指令，确定构建强化学习模型所需的智能体组件和全局环境组件，并确定每个所述智能体组件以及所述全局环境组件中包含的参数组件和变量组件。3.如权利要求1所述的方法，其特征在于，根据行为时间规则组件，确定构建所述强化学习模型所需的各行为之间的先后顺序，具体包括：针对每种组件，从预设的各检测方法中确定出与该种组件相匹配的检测方法，作为目标检测方法，并通过所述目标检测方法，对该种组件进行检测；根据各组件的检测结果，判断所述各组件中是否存在异常组件；若否，则根据行为时间规则组件，确定构建所述强化学习模型所需的各行为之间的先后顺序。4.如权利要求1所述的方法，其特征在于，根据所述各行为之间的先后顺序，运行每个行为对应的函数体组件之前，所述方法还包括：判断各行为对应的函数体组件运行所需的依赖包是否存在；若否，则向指定设备返回异常信息；根据所述各行为之间的先后顺序，运行每个行为对应的函数体组件，具体包括：若各行为对应的函数体组件运行所需的依赖包均存在，则获取各行为对应的函数体组件运行所需的依赖包并加载；在确定各行为对应的函数体组件运行所需的依赖包加载完成后，根据所述各行为之间的先后顺序，运行每个行为对应的函数体组件。5.如权利要求1所述的方法，其特征在于，根据所述各行为之间的先后顺序，运行每个行为对应的函数体组件之前，所述方法还包括：若构建所述强化学习模型所需的所述智能体组件...

【专利技术属性】
技术研发人员：王永恒，董子铭，曾洪海，肖恒进，巫英才，王超，陈卫，邵彬，韩珺婷，鲁艺，金星，张杨，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人