The present invention discloses a depth reinforcement learning method and device based on environmental state prediction, in which the method includes: establishing a deep reinforcement learning network based on environmental prediction and selecting appropriate strategy decision methods according to the characteristics of the task; initializing the network parameters and building a storage area to meet the storage conditions as a channel. According to the policy decision network, the appropriate strategy is selected to interact with the environment, and the interactive information of the interactive process is stored in the experience playback area continuously; the first sample sequence is sampled from the experience playback area, and the monitoring learning method is used to train the environmental prediction department and repeat the first presupposition. The second sample sequence is sampled from the experience playback area, and the parameters of the fixed environment prediction part are not moved. The strategy decision part is trained with the reinforcement learning method, and the second presupposition times are repeated. The reinforcement learning network is obtained when the network convergence satisfies the presupposition condition. This method can effectively improve the learning efficiency.
【技术实现步骤摘要】
基于环境状态预测的深度强化学习方法及装置
本专利技术涉及人工智能
,特别涉及一种基于环境状态预测的深度强化学习方法及装置。
技术介绍
在和环境的交互过程中学习是人工智能领域中的一个研究热点,解决这类问题一个重要的数学和理论工具就是强化学习。通过对马尔可夫决策过程的求解,强化学习可以通过未知环境的交互学习出一个目标导向的行为策略。而且,由于强化学习不需要显式的监督信号,且其学习过程类似于动物的学习行为,因此强化学习也被认为是解决通用人工智能问题的趋势。相关技术中的强化学习算法由于受到时间、空间和样本复杂度的限制,因此,只能被运用在低维状态空间和动作空间的问题。这一缺陷在深度神经网络的诞生后得到了一定程度的改善。深度神经网络利用了深层网络强大的表达能力,并结合反向传播的训练方法,可以自动地提取原始数据中的多层次抽象特征,获得高维数据的有效低维表达。通过利用深度神经网络进行特征提取,深度强化学习能够解决高维数据空间中的决策问题,因此在机器人控制、棋类游戏和无人驾驶等领域中有着广阔的应用前景。然而,相关技术中的深度强化学习算法还存在着一些缺陷。一方面,强化学习的算法的基础是马尔可夫性,而满足马尔可夫性的一个必要条件是要求状态是全观测的,因此对于部分可观测的马尔可夫决策问题,目前的算法通常都不能得到一个很好的策略;另一方面,目前的强化学习算法大多只能解决环境中的一个任务,当任务发生切换时,往往需要对网络进行重新训练,不具备有很好的通用性和迁移性,亟待解决。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出 ...
【技术保护点】
1.一种基于环境状态预测的深度强化学习方法,其特征在于,包括以下步骤:建立基于环境预测的深度强化学习网络,并根据环境的复杂度设定环境预测部分的网络规模,根据任务的特点选择合适的策略决策方法;初始化网络参数,并建立满足存储条件的存储区作为经验回放区;根据策略决策网络的输出选择合适的策略来与环境进行交互,并将交互过程的交互信息连续存储到所述经验回放区;从所述经验回放区采样第一样本序列,并利用监督学习的方法对所述环境预测部分进行训练,并重复第一预设次数;从所述经验回放区采样第二样本序列,并固定所述环境预测部分的参数不动,利用强化学习的方法对策略决策部分进行训练,并重复第二预设次数;在网络收敛满足预设条件时,获取强化学习网络。
【技术特征摘要】
1.一种基于环境状态预测的深度强化学习方法,其特征在于,包括以下步骤:建立基于环境预测的深度强化学习网络,并根据环境的复杂度设定环境预测部分的网络规模,根据任务的特点选择合适的策略决策方法;初始化网络参数,并建立满足存储条件的存储区作为经验回放区;根据策略决策网络的输出选择合适的策略来与环境进行交互,并将交互过程的交互信息连续存储到所述经验回放区;从所述经验回放区采样第一样本序列,并利用监督学习的方法对所述环境预测部分进行训练,并重复第一预设次数;从所述经验回放区采样第二样本序列,并固定所述环境预测部分的参数不动,利用强化学习的方法对策略决策部分进行训练,并重复第二预设次数;在网络收敛满足预设条件时,获取强化学习网络。2.根据权利要求1所述的基于环境状态预测的深度强化学习方法,其特征在于,还包括:通过卷积神经网络对原始图像数据进行特征提取。3.根据权利要求2所述的基于环境状态预测的深度强化学习方法,其特征在于,还包括:获取传感数据,并根据所述传感数据生成一维向量,并通过全解网络提取特征,以将所述卷积神经网络的输出拉平成一维向量,并和所述全连接网络的输出相连接,得到所有数据的特征向量,以及利用全连接层,将所述特征向量进行融合。4.根据权利要求1所述的基于环境状态预测的深度强化学习方法,其特征在于,利用监督学习得到抽象环境特征,以通过所述抽象环境特征进行策略决策训练。5.根据权利要求4所述的基于环境状态预测的深度强化学习方法,其特征在于,所述抽象环境特征st为:st=g(f(o0),f(o1),f(o2),…,f(ot)),其中,t为第t个时刻,st为t时刻的抽象环境特征,o0为第0时刻的观测值,o1为第1时刻的观测值,o2为第2个时刻的观测值,ot为第t个时刻的观测值,f(ot)为对t时刻的观测值使用映射f进行特征提取后的输出,g(f(o0),f(o1),f(o2),…,f(ot))为对t时刻以及t之前的观测进行特征提取,并针对这些特征使用映射g进行特征融合得到t时刻的抽象环境特征。6.一种基于环境状态预测的深度强化学习装置,其特征在于,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。