The invention relates to a model free exploration depth reinforcement learning method and device, the method comprises: according to the characteristics of sample acquisition; using the characteristic value of the input depth of reinforcement learning model, get the action value; the characteristic value of input count model action count; according to the action value and the action count decision action. By selecting actions with different execution times, we can get the environmental return value of each action more comprehensively and further improve the efficiency of exploration in the process of deep reinforcement learning.
【技术实现步骤摘要】
无模型深度增强学习探索方法及装置
本公开涉及机器学习
,尤其涉及一种无模型深度增强学习探索方法及装置。
技术介绍
深度增强学习,DeepReinforcementLearning是将深度学习与增强学习结合起来,从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted人为工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。增强学习是解决序贯决策问题的一个方法。近年来,深度增强学习利用神经网络作为算法的估计子,在基于图像输入的任务中取得了一定的成果。在进行动作决策时,智能代理需要根据历史经验决定执行某个动作,因此,利用神经网络进行深度增强学习问题的核心是如何压缩量级较大的历史样本,以及在神经网络的训练过程中,如何得出更加符合实际应用场景的训练结果。
技术实现思路
有鉴于此,本公开提出了一种无模型深度增强学习探索方法及装置,用以解决深度增强学习探索方法如何获取更加符合实际应用场景的训练结果的问题。根据本公开的一方面,提供了一种无模型深度增强学习探索方法,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。在一种可能的实现方式中,所述方法还包括:执行所述决策动作;获取环境返回的回报值;根据所述回报值和所述决策动作,确定误差值;根据所述误差值,利用反向传播算法,调整所述深度强化学习模 ...
【技术保护点】
一种无模型深度增强学习探索方法,其特征在于,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。
【技术特征摘要】
1.一种无模型深度增强学习探索方法,其特征在于,所述方法包括:根据样本获取特征值;将所述特征值输入深度强化学习模型进行处理,得到动作价值;将所述特征值输入计数模型得到动作计数值;根据所述动作价值和所述动作计数值确定决策动作。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:执行所述决策动作;获取环境返回的回报值;根据所述回报值和所述决策动作,确定误差值;根据所述误差值,利用反向传播算法,调整所述深度强化学习模型、所述计数模型的参数。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:将所述特征值输入辅助决策模型进行处理,得到辅助动作价值;根据所述动作价值和所述动作计数值确定决策动作,还包括:根据所述动作价值、所述动作计数值和所述辅助动作价值,确定决策动作。4.根据权利要求3所述的方法,其特征在于,将所述特征值输入辅助决策模型进行处理,得到辅助动作价值,包括:所述辅助决策模型根据所述特征值和随机回报值,确定辅助动作价值。5.根据权利要求1所述的方法,其特征在于,根据样本获取特征值,包括:利用多个卷积核对所述样本进行卷积处理,得到多个卷积特征;将得到的多个卷积特征进行拼接,获取所述特征值。6.根据权利要求1所述的方法,其特征在于,所述样本包括:环境的第一状态和动作,所述第一状态包括所述动作执行前的状态;将所述特征值输入计数模型得到动作计数值,包括:计数模型根据输入的特征值,提取所述样本的第一状态和动作;将所述样本的第一状态和动作进行对应,确定状态动作对;在状态动作对集合中查找确定出的状态动作对,并更新确定出的状态动作对的访问估计次数,所述状态动作对集合包括多个状态动作对,以及各状态动作对的访问估计次数组成的集合;将更新后的状态动作对集合,确定为动作计数值。7.根据权利要求6所述的方法,其特征在于,根据所述动作价值和所述动作计数值确定决策动作,包括:根据所述动作计数值中的访问估计次数确定动作价值的调整值,其中,访问估计次数越多,所确定出的调整值越小;根据所述动作调整值和所述动作价值,确定决策动作。8.一种无模型深度增强学习探索装置,其特征在于,包括:特征值获取模块,用于根据样本获取特征值;深度强化学习模块,用于将所述特征值输入深度强化学习模型进行处理,得到动作价值;计数模块,用于将所述特征值输入计数模型得到动作计数值;决策动作确定模块,用于根据所述动作价值和所述动作计数值确定决策动作。9....
【专利技术属性】
技术研发人员:季向阳,张子函,张宏昌,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。