基于相互学习的深度强化学习方法技术

技术编号：42390421 阅读：14 留言：0更新日期：2024-08-16 16:16

本发明专利技术公开一种基于相互学习的深度强化学习方法，包括：定义主智能体和互智能体，初始化两个智能体的神经网络，将两个智能体的神经网络的超参数设置保持一致；初始化主智能体的神经网络和互智能体的神经网络的环境；从主智能体的神经网络和互智能体的神经网络的经验池中分别随意抽取一批状态，通过状态采样动作，并计算损失函数，损失函数为两个子损失函数的线性相加的结果；使用反向传播算法更新两神经网络的参数以最小化损失函数，所述方法能够提高学习效率，提升DRL模型的整体性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于深度强化学习方法，具体涉及一种基于相互学习的深度强化学习方法。

技术介绍

1、强化学习(reinforcement learning,rl)是一种机器学习方法，不同于监督学习和无监督学习，强化学习通过智能体与环境不断交互的过程，采取行动获得奖励，并根据奖励和状态的反馈，不断优化自身的行动策略，期望获得最大化的长期收益。这种偏重于在交互中学习的强化学习方法具有三个特性，一是强化学习的核心思想是基于奖励学习，其目标是学习到长期累积奖励最大的策略，但奖励具有延迟回报的特性；二是强化学习类的问题核心是马尔科夫决策过程(markov decision process,mdp)，即智能体的下一状态仅与当前状态有关、与之前状态无关；三是强化学习的学习对象是值函数和策略，值函数用于评估某一状态或状态-动作对下的奖励期望，策略是智能体在给定状态下选择动作的概率分布。通过这三种特性的结合，强化学习能够在与环境的交互学习和优化中，使智能体在面对未知和复杂环境时做出理性的决策，因此常被应用于解决复杂的决策问题。

2、深度强化学习是近年...

【技术保护点】

1.一种基于相互学习的深度强化学习方法，其特征在于，包括：

2.根据权利要求1所述的基于相互学习的深度强化学习方法，其特征在于，步骤2中，主智能体和互智能体根据当前的策略在环境中执行动作，收集包含状态、动作、奖励、下一状态的样本，主智能体的神经网络和互智能体的神经网络通过学习值函数来评估在某一状态下采取某动作。

3.根据权利要求2所述的基于相互学习的深度强化学习方法，其特征在于，步骤3包括：

4.根据权利要求3所述的基于相互学习的深度强化学习方法，其特征在于，步骤3中，通过KL散度衡量主智能体的神经网络和互智能体的神经网络之间差异的损失函数，在主智能体...

【技术特征摘要】

1.一种基于相互学习的深度强化学习方法，其特征在于，包括：

3.根据权利要求2所述的基于相互学习的深度强化学习方法，其特征在于，步骤3包括：

4.根据权利要求3所述的基于相互学习的深度强化学习方法，其特征在于，步骤3中，通过kl散度衡量主智能体的神经网络和互智能体的神经网络之间差异的损失函数，在主智能体的神经网络经验回放采样获得神经网络q值，将相同的状态放入另一个互智能体的模型当中，获得互智能体的神经网络在相同状态下获得的神经网络q值，主智能体的神经网络对应状态下的值函数估计和互智能体的神经网络对应状态的值函数估计经过softmax处理后将值函数估计映射到0到1的范围，softmax处理的数学表达如式(3)：

5.根据权利要求1所述的基于相互学...

【专利技术属性】
技术研发人员：侯璐，韩莹，潘真真，韩灵怡，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人