基于环境动态分解模型的深度强化学习方法技术

技术编号：32579715 阅读：32 留言：0更新日期：2022-03-09 17:10

本发明专利技术公开了一种本发明专利技术的基于环境动态分解模型的深度强化学习方法，包括环境分解方式的确定、环境分解模型的建立和与深度强化学习结合，优化非基于模型的深度强化学习方法三个部分，动态进行分解建模来提高环境建模质量，最后我们结合基于模型的深度强化学习方法，来生成策略。与现有技术相比，本发明专利技术实现了分解模型与一般强化学习方法的结合，通过提出新的分解网络结构，极大地提高了环境建模的准确性，从而提高了基于模型的深度强化学习方法的学习效果。的学习效果。的学习效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于环境动态分解模型的深度强化学习方法

[0001]本专利技术涉及深度强化学习领域，特别是涉及基于模型的深度强化学习方法。

技术介绍

[0002]深度强化学习是一种解决顺序决策问题的通用学习框架，在许多领域都取得了显著的进展。一般来说，根据是否学习用于策略训练的世界模型，强化学习方法分为两类包括无模型深度的强化学习方法和基于模型的深度强化学习方法。基于模型的深度强化学习方法目的在于利用收集的经验数据来对环境建模，以帮助策略的学习；可以以较少的训练数据，学习到较好的策略。环境建模提高了样本效率，但往往具有有限的渐近性能，且存在模型误差。在环境建模过程中存在的模型误差使得基于模型的强化学习效果受到限制。
[0003]现有的基于模型的强化学习算法按照其遵循的范式可分为四类：第一类通过世界模型生成假想数据，并通过无模型强化学习算法使用这些数据进行策略训练；第二类利用世界模型的可微性，生成策略优化的可微轨迹；第三类得到一个精确的值函数，使用环境模型，产生多条轨迹，并基于这些轨迹计算时序差分目标值；第四类通过将最优控制算法(如MPC)与已有的世界模型相结合,来直接生成有效的策略。无论哪种范式，基于模型的强化学习算法的训练效果取决于世界模型的准确性，即得到的世界模型越准确，生成的数据就越可靠，最终可以获得更好的策略效果。因此，提高世界模型的精度是基于模型的强化学习算法的关键。为此，现有的方法采用了各种技术来提高模型的精度。例如，有些方法不是直接预测下一个状态，而是构建一个环境模型来预测状态的变化。有些方法使用模型集成来建模...

【技术保护点】

【技术特征摘要】
1.一种基于环境动态分解模型的深度强化学习方法，其特征在于，该方法具体包括以下步骤：步骤1：进行环境动态分解，包括：首先对每个动作维度进行特征值的提取，这一特征值为每个动作维度与所有状态维度之间的皮尔逊相关系数；随后依据特征向量进行动作维度的聚类，将相似的动作维度聚类到一起，相异的分到不同的簇中；最后将聚类的结果作为对环境动态的分解结果；步骤2：建立环境动态分解模型，包括：首先确定以多个环境动态模型建模环境动态的底层框架，模型的数量将对应于环境分解过程中所发现的子动态的数量，使用每一个模型分别预测每一个子动态；每一个子动态对应的子模型都输入当前的状态以及相对应的动作空间中的动作，来预测一个相应的变量，输出一个隐空间变量；随后用子模型来预测一个隐空间变量；在所有的子模型预测完毕后，把所有子模型的预测结果融合起来，通过一个融合神经网络，最后输出一个预测结果；从这个预测结果中，使用解码网络来解码出下一个时刻的状态s以及这一过程的奖励r；步骤3：实现环境动态分解模型与深度强化学习的结合，优化非基于模型的深度强化学习方法。2.如权利要求1所述的基于环境动态分解模型的深度强化学习方法，其特征在于，所述步骤1进一步包括以下处理：步骤1.1：确定环境动态与动作之间的关系；步骤1.2：对动作维度进行特征提取；对动作维度进行分解相当于对环境动态进行分解，首先对每个动作维度进行相关特征值的提取，具体每个动作维度与所有状态维度之间的皮尔逊相关系数来作为该动作维度的特征向量；动作维度的特征向量表达式如下：F
i
＝<|f
i，1
，...，f
i，n
|>f
i...

【专利技术属性】
技术研发人员：王聪，杨天培，郝建业，郑岩，马亿，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人