一种强化学习序列决策方法、系统、设备及介质技术方案

技术编号：41224996 阅读：3 留言：0更新日期：2024-05-09 23:43

本发明专利技术提供了一种强化学习序列决策方法、系统、设备及介质，涉及序列决策领域，方法包括：对强化学习的历史轨迹数据进行预处理，生成预处理后的历史轨迹数据训练Transformer网络模型，利用Transformer网络模型中的文本转化机制，将强化学习转换为语言转化模型任务，生成训练好的Transformer网络模型；Transformer网络模型用于预测在历史环境下的下一时间点的动作信息，确定历史环境状态下的最大目标奖励值，以得到历史环境状态下的完整轨迹；利用所述训练好的Transformer网络模型预测在真实环境状态下的下一时间点的动作信息，得到真实环境状态下的完整轨迹。本发明专利技术能够提高Transformer网络模型的预测结果的准确度，使得Transformer网络模型的可解释性更强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及序列决策领域，特别是涉及一种强化学习序列决策方法、系统、设备及介质。

技术介绍

1、强化学习的传统训练方法分为两大类，基于策略(policy)的学习和基于值函数(value)的学习。在环境(状态转移概率、回报)已知的情况下，通过策略迭代或价值迭代的方法直接求解出最优策略；对于无法获得全部信息的复杂环境，必须通过探索的方式来获取样本，这一训练过程通常也是围绕着价值函数或策略函数来进行更新。近年来大规模生成模型在自然语音处理甚至是计算机视觉领域都取得了重大突破，相关方法也被引入了强化学习，如transformer等。

2、为了实现相关序列预测算法与强化学习的结合，研究人员将强化学习的训练任务看作一个序列决策问题(sequential decision-making)。目前针对于transformer网络模型与强化学习结合的研究主要集中在数据处理方面，即简单地将数据处理成适合作为模型输入的形式，然后投入训练得到结果，传统强化学习算法中利用马尔可夫决策过程这一思想会造成训练不稳定的因素，导致预测结果的准确度低，且一般模型仅仅是将强化学习数据处理成复合语言模型的训练规则，然后直接投入训练，虽然结果可观，但是训练的模型不具有合理性和可解释性。

技术实现思路

1、本专利技术的目的是提供一种强化学习序列决策方法、系统、设备及介质，以解决传统强化学习算法训练transformer网络模型的预测结果的准确度低且训练的模型不具有合理性和可解释性的问题。

2、为实现上

3、一种强化学习序列决策方法，包括：

4、对强化学习的历史轨迹数据进行预处理，生成预处理后的历史轨迹数据；所述历史轨迹数据为不同训练程度下的智能体在模拟游戏环境中进行游玩测试所产生的历史轨迹数据；所述预处理后的历史轨迹数据包括任一时刻的状态信息、任一时刻的动作信息以及任一时刻的即时目标奖励信息；

5、根据所述预处理后的历史轨迹数据训练transformer网络模型，利用所述transformer网络模型中的文本转化机制，将强化学习转换为语言转化模型任务，生成训练好的transformer网络模型；所述transformer网络模型包括输入输出端的编码模块、位置信息编码模块、网络蒙版设计模块、编码器模块、解码器模块以及线性层；所述transformer网络模型用于预测在历史环境下的下一时间点的动作信息，确定历史环境状态下的最大目标奖励值，以得到历史环境状态下的完整轨迹；

6、利用所述训练好的transformer网络模型预测在真实环境状态下的下一时间点的动作信息，以得到真实环境状态下的完整轨迹。

7、可选的，对强化学习的历史轨迹数据进行预处理，生成预处理后的历史轨迹数据，具体包括：

8、对强化学习的历史轨迹数据进行处理，形成包含上下文信息的序列轨迹数据；

9、对所述序列轨迹数据进行分割，生成预处理后的历史轨迹数据。

10、可选的，根据所述预处理后的历史轨迹数据训练transformer网络模型，利用所述transformer网络模型中的文本转化机制，将强化学习转换为语言转化模型任务，生成训练好的transformer网络模型，具体包括：

11、利用所述输入输出端的编码模块对所述预处理后的历史轨迹数据进行数据编码，生成编码后的历史轨迹数据；

12、利用所述位置信息编码模块在所述编码后的历史轨迹数据中引入位置编码信息，生成引入位置编码信息后的历史轨迹数据；

13、利用所述网络蒙版设计模块在编码器模块以及解码器模块引入相同的网络蒙版，对所述引入位置编码信息后的历史轨迹数据进行处理；

14、利用所述编码器模块根据经过所述网络蒙版处理的状态信息以及期望目标奖励和确定全局状态信息；所述期望目标奖励和是根据即时目标奖励信息确定的；

15、利用所述解码器模块根据经过所述网络蒙版处理的动作信息以及所述全局状态信息确定未经解码的动作信息；所述未经解码的动作信息为隐藏的动作信息；

16、利用所述线性层根据所述未经解码的动作信息预测在历史环境下的下一时间点的动作信息，以得到历史环境状态下的完整轨迹。

17、一种强化学习序列决策系统，包括：

18、预处理模块，用于对强化学习的历史轨迹数据进行预处理，生成预处理后的历史轨迹数据；所述历史轨迹数据为不同训练程度下的智能体在模拟游戏环境中进行游玩测试所产生的历史轨迹数据；所述预处理后的历史轨迹数据包括任一时刻的状态信息、任一时刻的动作信息以及任一时刻的即时目标奖励信息；

19、训练模块，用于根据所述预处理后的历史轨迹数据训练transformer网络模型，利用所述transformer网络模型中的文本转化机制，将强化学习转换为语言转化模型任务，生成训练好的transformer网络模型；所述transformer网络模型包括输入输出端的编码模块、位置信息编码模块、网络蒙版设计模块、编码器模块、解码器模块以及线性层；所述transformer网络模型用于预测在历史环境下的下一时间点的动作信息，确定历史环境状态下的最大目标奖励值，以得到历史环境状态下的完整轨迹；

20、预测模块，用于利用所述训练好的transformer网络模型预测在真实环境状态下的下一时间点的动作信息，以得到真实环境状态下的完整轨迹。

21、可选的，所述训练模块，具体包括：

22、所述输入输出端的编码模块，用于对所述预处理后的历史轨迹数据进行数据编码，生成编码后的历史轨迹数据；

23、所述位置信息编码模块，用于在所述编码后的历史轨迹数据中引入位置编码信息，生成引入位置编码信息后的历史轨迹数据；

24、所述网络蒙版设计模块，用于在编码器模块以及解码器模块引入相同的网络蒙版，对所述引入位置编码信息后的历史轨迹数据进行处理；

25、所述编码器模块，用于根据经过所述网络蒙版处理的状态信息以及期望目标奖励和确定全局状态信息；所述期望目标奖励和是根据即时目标奖励信息确定的；

26、所述解码器模块，用于根据经过所述网络蒙版处理的动作信息以及所述全局状态信息确定未经解码的动作信息；所述未经解码的动作信息为隐藏的动作信息；

27、所述线性层，用于根据所述未经解码的动作信息预测在历史环境下的下一时间点的动作信息，以得到历史环境状态下的完整轨迹。

28、可选的，所述编码器模块包括堆叠的6个编码器结构；

29、按照经过所述网络蒙版处理的状态信息以及期望目标奖励和输入所述编码器结构的输入顺序，所述编码器结构包括第一注意力机制层、第一归一化层、第一前馈神经网络层以及第二归一化层。

30、可选的，所述解码器模块包括堆叠的6个解码器结构；

31、按照所述经过所述网络蒙版处理的动作信息以及所述全局状态信息输入所述解码器结本文档来自技高网...

【技术保护点】

1.一种强化学习序列决策方法，其特征在于，包括：

2.根据权利要求1所述的强化学习序列决策方法，其特征在于，对强化学习的历史轨迹数据进行预处理，生成预处理后的历史轨迹数据，具体包括：

3.根据权利要求1所述的强化学习序列决策方法，其特征在于，根据所述预处理后的历史轨迹数据训练Transformer网络模型，利用所述Transformer网络模型中的文本转化机制，将强化学习转换为语言转化模型任务，生成训练好的Transformer网络模型，具体包括：

4.一种强化学习序列决策系统，其特征在于，包括：

5.根据权利要求4所述的强化学习序列决策系统，其特征在于，所述训练模块，具体包括：

6.根据权利要求4所述的强化学习序列决策系统，其特征在于，所述编码器模块包括堆叠的6个编码器结构；

7.根据权利要求4所述的强化学习序列决策系统，其特征在于，所述解码器模块包括堆叠的6个解码器结构；

8.根据权利要求1所述的强化学习序列决策系统，其特征在于，所述网络蒙版为上三角矩阵。

9.一种电子设备，其特征

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的强化学习序列决策方法。

...

【技术特征摘要】

1.一种强化学习序列决策方法，其特征在于，包括：

2.根据权利要求1所述的强化学习序列决策方法，其特征在于，对强化学习的历史轨迹数据进行预处理，生成预处理后的历史轨迹数据，具体包括：

3.根据权利要求1所述的强化学习序列决策方法，其特征在于，根据所述预处理后的历史轨迹数据训练transformer网络模型，利用所述transformer网络模型中的文本转化机制，将强化学习转换为语言转化模型任务，生成训练好的transformer网络模型，具体包括：

4.一种强化学习序列决策系统，其特征在于，包括：

5.根据权利要求4所述的强化学习序列决策系统，其特征在于，所述训练模块，具体包括：

6.根据...

【专利技术属性】
技术研发人员：谢宁，李嘉铭，汤皓岚，范有腾，曹晟，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人