【技术实现步骤摘要】
本专利技术属于深度强化学习方法,具体涉及一种基于相互学习的深度强化学习方法。
技术介绍
1、强化学习(reinforcement learning,rl)是一种机器学习方法,不同于监督学习和无监督学习,强化学习通过智能体与环境不断交互的过程,采取行动获得奖励,并根据奖励和状态的反馈,不断优化自身的行动策略,期望获得最大化的长期收益。这种偏重于在交互中学习的强化学习方法具有三个特性,一是强化学习的核心思想是基于奖励学习,其目标是学习到长期累积奖励最大的策略,但奖励具有延迟回报的特性;二是强化学习类的问题核心是马尔科夫决策过程(markov decision process,mdp),即智能体的下一状态仅与当前状态有关、与之前状态无关;三是强化学习的学习对象是值函数和策略,值函数用于评估某一状态或状态-动作对下的奖励期望,策略是智能体在给定状态下选择动作的概率分布。通过这三种特性的结合,强化学习能够在与环境的交互学习和优化中,使智能体在面对未知和复杂环境时做出理性的决策,因此常被应用于解决复杂的决策问题。
2、深度强化学习是近年
...【技术保护点】
1.一种基于相互学习的深度强化学习方法,其特征在于,包括:
2.根据权利要求1所述的基于相互学习的深度强化学习方法,其特征在于,步骤2中,主智能体和互智能体根据当前的策略在环境中执行动作,收集包含状态、动作、奖励、下一状态的样本,主智能体的神经网络和互智能体的神经网络通过学习值函数来评估在某一状态下采取某动作。
3.根据权利要求2所述的基于相互学习的深度强化学习方法,其特征在于,步骤3包括:
4.根据权利要求3所述的基于相互学习的深度强化学习方法,其特征在于,步骤3中,通过KL散度衡量主智能体的神经网络和互智能体的神经网络之间差异的
...【技术特征摘要】
1.一种基于相互学习的深度强化学习方法,其特征在于,包括:
2.根据权利要求1所述的基于相互学习的深度强化学习方法,其特征在于,步骤2中,主智能体和互智能体根据当前的策略在环境中执行动作,收集包含状态、动作、奖励、下一状态的样本,主智能体的神经网络和互智能体的神经网络通过学习值函数来评估在某一状态下采取某动作。
3.根据权利要求2所述的基于相互学习的深度强化学习方法,其特征在于,步骤3包括:
4.根据权利要求3所述的基于相互学习的深度强化学习方法,其特征在于,步骤3中,通过kl散度衡量主智能体的神经网络和互智能体的神经网络之间差异的损失函数,在主智能体的神经网络经验回放采样获得神经网络q值,将相同的状态放入另一个互智能体的模型当中,获得互智能体的神经网络在相同状态下获得的神经网络q值,主智能体的神经网络对应状态下的值函数估计和互智能体的神经网络对应状态的值函数估计经过softmax处理后将值函数估计映射到0到1的范围,softmax处理的数学表达如式(3):
5.根据权利要求1所述的基于相互学...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。