当前位置: 首页 > 专利查询>清华大学专利>正文

无模型深度增强学习探索方法及装置制造方法及图纸

技术编号:17542109 阅读:76 留言:0更新日期:2018-03-24 19:43
本公开涉及一种无模型深度增强学习探索方法及装置,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。通过选择不同执行次数的动作,在深度强化学习的探索过程中,更加全面的得到各动作的环境回报值,进而提高探索效率。

Research method and device for model free depth enhancement learning

The invention relates to a model free exploration depth reinforcement learning method and device, the method comprises: according to the characteristics of sample acquisition; using the characteristic value of the input depth of reinforcement learning model, get the action value; the characteristic value of input count model action count; according to the action value and the action count decision action. By selecting actions with different execution times, we can get the environmental return value of each action more comprehensively and further improve the efficiency of exploration in the process of deep reinforcement learning.

【技术实现步骤摘要】
无模型深度增强学习探索方法及装置
本公开涉及机器学习
,尤其涉及一种无模型深度增强学习探索方法及装置。
技术介绍
深度增强学习,DeepReinforcementLearning是将深度学习与增强学习结合起来,从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted人为工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。增强学习是解决序贯决策问题的一个方法。近年来,深度增强学习利用神经网络作为算法的估计子,在基于图像输入的任务中取得了一定的成果。在进行动作决策时,智能代理需要根据历史经验决定执行某个动作,因此,利用神经网络进行深度增强学习问题的核心是如何压缩量级较大的历史样本,以及在神经网络的训练过程中,如何得出更加符合实际应用场景的训练结果。
技术实现思路
有鉴于此,本公开提出了一种无模型深度增强学习探索方法及装置,用以解决深度增强学习探索方法如何获取更加符合实际应用场景的训练结果的问题。根据本公开的一方面,提供了一种无模型深度增强学习探索方法,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。在一种可能的实现方式中,所述方法还包括:执行所述决策动作;获取环境返回的回报值;根据所述回报值和所述决策动作,确定误差值;根据所述误差值,利用反向传播算法,调整所述深度强化学习模型、所述计数模型的参数。在一种可能的实现方式中,所述方法还包括:将所述特征值输入辅助决策模型进行处理,得到辅助动作价值;根据所述动作价值和所述动作计数值确定决策动作,还包括:根据所述动作价值、所述动作计数值和所述辅助动作价值,确定决策动作。在一种可能的实现方式中,将所述特征值输入辅助决策模型进行处理,得到辅助动作价值,包括:所述辅助决策模型根据所述特征值和随机回报值,确定辅助动作价值。在一种可能的实现方式中,根据样本获取特征值,包括:利用多个卷积核对所述样本进行卷积处理,得到多个卷积特征;将得到的多个卷积特征进行拼接,获取所述特征值。在一种可能的实现方式中,所述样本包括:环境的第一状态和动作,所述第一状态包括所述动作执行前的状态;将所述特征值输入计数模型得到动作计数值,包括:计数模型根据输入的特征值,提取所述样本的第一状态和动作;将所述样本的第一状态和动作进行对应,确定状态动作对;在状态动作对集合中查找确定出的状态动作对,并更新确定出的状态动作对的访问估计次数,所述状态动作对集合包括多个状态动作对,以及各状态动作对的访问估计次数组成的集合;将更新后的状态动作对集合,确定为动作计数值。在一种可能的实现方式中,根据所述动作价值和所述动作计数值确定决策动作,包括:根据所述动作计数值中的访问估计次数确定动作价值的调整值,其中,访问估计次数越多,所确定出的调整值越小;根据所述动作调整值和所述动作价值,确定决策动作。根据本公开的另一方面,提供了一种无模型深度增强学习探索装置,包括:特征值获取模块,用于根据样本获取特征值;深度强化学习模块,用于将所述特征值输入深度强化学习模型进行处理,得到动作价值;计数模块,用于将所述特征值输入计数模型得到动作计数值;决策动作确定模块,用于根据所述动作价值和所述动作计数值确定决策动作。在一种可能的实现方式中,所述装置还包括:动作执行模块,用于执行所述决策动作;回报值获取模块,用于获取环境返回的回报值;误差值确定模块,用于根据所述回报值和所述决策动作,确定误差值;参数调整模块,用于根据所述误差值,利用反向传播算法,调整所述深度强化学习模型、所述计数模型和所述辅助决策模型的参数。在一种可能的实现方式中,所述装置还包括:辅助决策模块,用于将所述特征值输入辅助决策模型进行处理,得到辅助动作价值;所述决策动作确定模块,还包括:辅助决策子模块,用于根据所述动作价值、所述动作计数值和所述辅助动作价值,确定决策动作。在一种可能的实现方式中,所述辅助决策模块,包括:辅助动作价值子模块,用于根据所述特征值和随机回报值,确定辅助动作价值。在一种可能的实现方式中,所述特征值获取模块,包括:卷积处理子模块,用于利用多个卷积核对所述样本进行卷积处理,得到多个卷积特征;特征值获取子模块,用于将得到的多个卷积特征进行拼接,获取所述特征值。在一种可能的实现方式中,所述样本包括:环境的第一状态和动作,所述第一状态包括所述动作执行前的状态;所述计数模型模块,包括:状态动作提取子模块,用于根据输入的特征值,提取所述样本的第一状态和动作;状态动作对确定子模块,用于将所述样本的第一状态和动作进行对应,确定状态动作对;访问次数估计子模块,用于在状态动作对集合中查找确定出的状态动作对,并更新确定出的状态动作对的访问估计次数,所述状态动作对集合包括多个状态动作对,以及各状态动作对的访问估计次数组成的集合;动作计数值确定子模块,用于将更新后的状态动作对集合,确定为动作计数值。在一种可能的实现方式中,所述决策动作确定模块,包括:调整值确定子模块,用于根据所述动作计数值中的访问估计次数确定动作价值的调整值,其中,访问估计次数越多,所确定出的调整值越小;决策动作确定子模块,用于根据所述动作调整值和所述动作价值,确定决策动作。根据本公开的另一方面,提供了一种无模型深度增强学习探索装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述无模型深度增强学习探索方法。根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述无模型深度增强学习探索方法。本公开通过计数模型记录各状态下各个动作的执行次数,并在确定决策动作的过程中,优选执行次数少的动作。通过选择不同执行次数的动作,在深度强化学习的探索过程中,更加全面的得到执行各个动作在当前情况下的探索收益,进而提高探索效率。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。图1示出根据本公开一实施例的无模型深度增强学习探索方法的流程图;图2示出根据本公开一实施例的无模型深度增强学习探索方法的流程图;图3示出根据本公开一实施例的无模型深度增强学习探索方法的流程图;图4示出根据本公开一实施例的无模型深度增强学习探索方法的流程图;图5示出根据本公开一实施例的无模型深度增强学习探索方法的流程图;图6示出根据本公开一实施例的无模型深度增强学习探索方法的流程图;图7示出根据本公开一实施例的无模型深度增强学习探索方法的流程图;图8示出根据本公开一实施例的基于神经网络的动作识别方法中提取样本特征值的流程图;图9示出根据本公开一实施例的无模型深度增强学习探索装置的框图;图10示出根据本公开一实施例的无模型深度增强学习探索装置的框图;图11示出根据本公开一实施例的无模型深度增强学习探索装置的框图。具体实施方式本文档来自技高网...
无模型深度增强学习探索方法及装置

【技术保护点】
一种无模型深度增强学习探索方法,其特征在于,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。

【技术特征摘要】
1.一种无模型深度增强学习探索方法,其特征在于,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:执行所述决策动作;获取环境返回的回报值;根据所述回报值和所述决策动作,确定误差值;根据所述误差值,利用反向传播算法,调整所述深度强化学习模型、所述计数模型的参数。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述特征值输入辅助决策模型进行处理,得到辅助动作价值;根据所述动作价值和所述动作计数值确定决策动作,还包括:根据所述动作价值、所述动作计数值和所述辅助动作价值,确定决策动作。4.根据权利要求3所述的方法,其特征在于,将所述特征值输入辅助决策模型进行处理,得到辅助动作价值,包括:所述辅助决策模型根据所述特征值和随机回报值,确定辅助动作价值。5.根据权利要求1所述的方法,其特征在于,根据样本获取特征值,包括:利用多个卷积核对所述样本进行卷积处理,得到多个卷积特征;将得到的多个卷积特征进行拼接,获取所述特征值。6.根据权利要求1所述的方法,其特征在于,所述样本包括:环境的第一状态和动作,所述第一状态包括所述动作执行前的状态;将所述特征值输入计数模型得到动作计数值,包括:计数模型根据输入的特征值,提取所述样本的第一状态和动作;将所述样本的第一状态和动作进行对应,确定状态动作对;在状态动作对集合中查找确定出的状态动作对,并更新确定出的状态动作对的访问估计次数,所述状态动作对集合包括多个状态动作对,以及各状态动作对的访问估计次数组成的集合;将更新后的状态动作对集合,确定为动作计数值。7.根据权利要求6所述的方法,其特征在于,根据所述动作价值和所述动作计数值确定决策动作,包括:根据所述动作计数值中的访问估计次数确定动作价值的调整值,其中,访问估计次数越多,所确定出的调整值越小;根据所述动作调整值和所述动作价值,确定决策动作。8.一种无模型深度增强学习探索装置,其特征在于,包括:特征值获取模块,用于根据样本获取特征值;深度强化学习模块,用于将所述特征值输入深度强化学习模型进行处理,得到动作价值;计数模块,用于将所述特征值输入计数模型得到动作计数值;决策动作确定模块,用于根据所述动作价值和所述动作计数值确定决策动作。9....

【专利技术属性】
技术研发人员:季向阳张子函张宏昌
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1