一种离线强化学习方法、装置、设备及存储介质制造方法及图纸

技术编号：40951434 阅读：4 留言：0更新日期：2024-04-18 20:26

本申请涉及一种离线强化学习方法、装置、设备及存储介质，其中，离线强化学习方法包括：由智能体与环境进行交互，根据预获经验生成采样轨迹，其中，所述预获经验用于指导所述智能体；将所述采样轨迹当作一个决策序列，输入到Transformer模型中，对所述Transformer模型进行训练。本申请能够加快智能体的学习速度，降低试错成本，从而有效提升强化学习算法的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及强化学习，尤其涉及一种离线强化学习方法、装置、设备及存储介质。

技术介绍

1、现有强化学习算法主要在于智能体与环境进行交互，由环境给出奖励指导智能体行为，但是在实际场景中可能存在试错成本较高、探索所有可能空间较为困难的情况，导致智能体难以训练或难以收敛的情况。

2、因此，专利技术人提供了一种离线强化学习方法、装置、设备及存储介质。

技术实现思路

1、(1)要解决的技术问题

2、本申请实施例提供了一种离线强化学习方法、装置、设备及存储介质，要解决的技术问题是：现有的强化学习算法在实际训练过程中试错成本较高，探索环境空间效率低下，导致智能体训练过程难以收敛。

3、(2)技术方案

4、第一方面，本申请实施例提供了一种离线强化学习方法，包括：

5、由智能体与环境进行交互，根据预获经验生成采样轨迹，其中，所述预获经验用于指导所述智能体；

6、将所述采样轨迹当作一个决策序列，输入到transformer模型中，对所述transformer模型进行训练。

7、在其中一个实施例中，所述由智能体与环境进行交互，根据预获经验生成采样轨迹，包括：

8、由智能体与环境进行交互，生成采样数据；

9、根据所述采样数据以及预获经验构成的规则库，生成采样轨迹。

10、在其中一个实施例中，所述由智能体与环境进行交互，生成采样数据之前，还包括：

11、在指定的任务和环境中，通过

12、在其中一个实施例中，所述由智能体与环境进行交互，生成采样数据，包括：

13、由预训练智能体与环境进行交互，生成采样数据。

14、在其中一个实施例中，所述根据所述采样数据以及预获经验构成的规则库，生成采样轨迹，包括：

15、根据预获经验构成的规则库判断所述采样数据是否符合规则；

16、若符合则根据所述采样数据生成采样轨迹，若不符合则继续进行交互重新获取采样数据。

17、在其中一个实施例中，所述离线强化学习方法，还包括：

18、将离线数据集中的历史决策序列输入到transformer模型中，对所述transformer模型进行训练。

19、在其中一个实施例中，所述离线强化学习方法，还包括：

20、将当前时刻的历史决策序列输入到transformer模型中，由所述transformer模型输出网络决策动作。

21、第二方面，本申请实施例提供了一种离线强化学习装置，包括：

22、轨迹生成模块，用于由智能体与环境进行交互，根据预获经验生成采样轨迹，其中，所述预获经验用于指导所述智能体；

23、模型训练模块，用于将所述采样轨迹当作一个决策序列，输入到transformer模型中，对所述transformer模型进行训练。

24、第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上所述的离线强化学习方法。

25、第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上所述的离线强化学习方法。

26、(3)有益效果

27、本申请的上述技术方案具有如下优点：

28、本申请实施例第一方面提供的离线强化学习方法，通过将预先获得的经验数据引入到智能体训练过程中，利用经验数据中隐含的对智能体能够起到指导意义的信息来加快智能体的学习速度，降低试错成本，从而有效提升强化学习算法的性能。

29、可以理解的是，上述第二方面、第三方面和第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本文档来自技高网...

【技术保护点】

1.一种离线强化学习方法，其特征在于，包括：

2.如权利要求1所述的离线强化学习方法，其特征在于，所述由智能体与环境进行交互，根据预获经验生成采样轨迹，包括：

3.如权利要求2所述的离线强化学习方法，其特征在于，所述由智能体与环境进行交互，生成采样数据之前，还包括：

4.如权利要求2所述的离线强化学习方法，其特征在于，所述由智能体与环境进行交互，生成采样数据，包括：

5.如权利要求2所述的离线强化学习方法，其特征在于，所述根据所述采样数据以及预获经验构成的规则库，生成采样轨迹，包括：

6.如权利要求1所述的离线强化学习方法，其特征在于，还包括：

7.如权利要求1所述的离线强化学习方法，其特征在于，还包括：

8.一种离线强化学习装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的离线强化学习方法。

10.一种计算机可读存储介质，所述计算

...

【技术特征摘要】

1.一种离线强化学习方法，其特征在于，包括：

2.如权利要求1所述的离线强化学习方法，其特征在于，所述由智能体与环境进行交互，根据预获经验生成采样轨迹，包括：

3.如权利要求2所述的离线强化学习方法，其特征在于，所述由智能体与环境进行交互，生成采样数据之前，还包括：

4.如权利要求2所述的离线强化学习方法，其特征在于，所述由智能体与环境进行交互，生成采样数据，包括：

5.如权利要求2所述的离线强化学习方法，其特征在于，所述根据所述采样数据以及预获经验构成的规则库，生成采样轨迹，包括：

6.如权...

【专利技术属性】
技术研发人员：谢永健，王振杰，李昊，刘俊涛，罗荣，
申请(专利权)人：中船智海创新研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人