当前位置: 首页 > 专利查询>清华大学专利>正文

基于环境状态预测的深度强化学习方法及装置制造方法及图纸

技术编号:18459123 阅读:38 留言:0更新日期:2018-07-18 12:50
本发明专利技术公开了一种基于环境状态预测的深度强化学习方法及装置,其中,方法包括:建立基于环境预测的深度强化学习网络,并根据任务的特点选择合适的策略决策方法;初始化网络参数,并建立满足存储条件的存储区作为经验回放区;根据策略决策网络的输出选择合适的策略来与环境进行交互,并将交互过程的交互信息连续存储到经验回放区;从经验回放区采样第一样本序列,并利用监督学习的方法对环境预测部分进行训练,并重复第一预设次数;从经验回放区采样第二样本序列,并固定环境预测部分的参数不动,利用强化学习的方法对策略决策部分进行训练,并重复第二预设次数;在网络收敛满足预设条件时,获取强化学习网络。该方法可以有效提高学习效率。

Deep reinforcement learning method and device based on environmental state prediction

The present invention discloses a depth reinforcement learning method and device based on environmental state prediction, in which the method includes: establishing a deep reinforcement learning network based on environmental prediction and selecting appropriate strategy decision methods according to the characteristics of the task; initializing the network parameters and building a storage area to meet the storage conditions as a channel. According to the policy decision network, the appropriate strategy is selected to interact with the environment, and the interactive information of the interactive process is stored in the experience playback area continuously; the first sample sequence is sampled from the experience playback area, and the monitoring learning method is used to train the environmental prediction department and repeat the first presupposition. The second sample sequence is sampled from the experience playback area, and the parameters of the fixed environment prediction part are not moved. The strategy decision part is trained with the reinforcement learning method, and the second presupposition times are repeated. The reinforcement learning network is obtained when the network convergence satisfies the presupposition condition. This method can effectively improve the learning efficiency.

【技术实现步骤摘要】
基于环境状态预测的深度强化学习方法及装置
本专利技术涉及人工智能
,特别涉及一种基于环境状态预测的深度强化学习方法及装置。
技术介绍
在和环境的交互过程中学习是人工智能领域中的一个研究热点,解决这类问题一个重要的数学和理论工具就是强化学习。通过对马尔可夫决策过程的求解,强化学习可以通过未知环境的交互学习出一个目标导向的行为策略。而且,由于强化学习不需要显式的监督信号,且其学习过程类似于动物的学习行为,因此强化学习也被认为是解决通用人工智能问题的趋势。相关技术中的强化学习算法由于受到时间、空间和样本复杂度的限制,因此,只能被运用在低维状态空间和动作空间的问题。这一缺陷在深度神经网络的诞生后得到了一定程度的改善。深度神经网络利用了深层网络强大的表达能力,并结合反向传播的训练方法,可以自动地提取原始数据中的多层次抽象特征,获得高维数据的有效低维表达。通过利用深度神经网络进行特征提取,深度强化学习能够解决高维数据空间中的决策问题,因此在机器人控制、棋类游戏和无人驾驶等领域中有着广阔的应用前景。然而,相关技术中的深度强化学习算法还存在着一些缺陷。一方面,强化学习的算法的基础是马尔可夫性,而满足马尔可夫性的一个必要条件是要求状态是全观测的,因此对于部分可观测的马尔可夫决策问题,目前的算法通常都不能得到一个很好的策略;另一方面,目前的强化学习算法大多只能解决环境中的一个任务,当任务发生切换时,往往需要对网络进行重新训练,不具备有很好的通用性和迁移性,亟待解决。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于环境状态预测的深度强化学习方法,该方法可以有效提高学习效率,并且具有很好的迁移性。本专利技术的另一个目的在于提出一种基于环境状态预测的深度强化学习装置。为达到上述目的,本专利技术一方面实施例提出了一种基于环境状态预测的深度强化学习方法,包括以下步骤:建立基于环境预测的深度强化学习网络,并根据环境的复杂度设定环境预测部分的网络规模,根据任务的特点选择合适的策略决策方法;初始化网络参数,并建立满足存储条件的存储区作为经验回放区;根据策略决策网络的输出选择合适的策略来与环境进行交互,并将交互过程的交互信息连续存储到所述经验回放区;从所述经验回放区采样第一样本序列,并利用监督学习的方法对所述环境预测部分进行训练,并重复第一预设次数;从所述经验回放区采样第二样本序列,并固定所述环境预测部分的参数不动,利用强化学习的方法对策略决策部分进行训练,并重复第二预设次数;在网络收敛满足预设条件时,获取强化学习网络。本专利技术实施例的基于环境状态预测的深度强化学习方法,能够驱动智能体建立对当前所在环境特性的理解,对环境和自身的当前和未来全局状态进行预测,并结合了监督学习和强化学习的训练方式,在一定程度上解决了部分可观测问题和通用性问题,并且可以快速的迁移,有效提高学习效率。另外,根据本专利技术上述实施例的基于环境状态预测的深度强化学习方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,还包括:通过卷积神经网络对原始图像数据进行特征提取。进一步地,在本专利技术的一个实施例中,还包括:获取传感数据,并根据所述传感数据生成一维向量,并通过全解网络提取特征,以将所述卷积神经网络的输出拉平成一维向量,并和所述全连接网络的输出相连接,得到所有数据的特征向量,以及利用全连接层,将所述特征向量进行融合。进一步地,在本专利技术的一个实施例中,利用监督学习得到抽象环境特征,以通过所述抽象环境特征进行策略决策训练。进一步地,在本专利技术的一个实施例中,所述抽象环境特征st为:st=g(f(o0),f(o1),f(o2),…,f(ot)),其中,t为第t个时刻,st为t时刻的抽象环境特征,o0为第0时刻的观测值,o1为第1时刻的观测值,o2为第2个时刻的观测值,ot为第t个时刻的观测值,f(ot)为对t时刻的观测值使用映射f进行特征提取后的输出,g(f(o0),f(o1),f(o2),…,f(ot))为对t时刻以及t之前的观测进行特征提取,并针对这些特征使用映射g进行特征融合得到t时刻的抽象环境特征。为达到上述目的,本专利技术另一方面实施例提出了一种基于环境状态预测的深度强化学习装置,包括:建立模块,用于建立基于环境预测的深度强化学习网络,并根据环境的复杂度设定环境预测部分的网络规模,根据任务的特点选择合适的策略决策方法;初始化模块,用于初始化网络参数,并建立满足存储条件的存储区作为经验回放区;交互模块,用于根据策略决策网络的输出选择合适的策略来与环境进行交互,并将交互过程的交互信息连续存储到所述经验回放区;训练模块,用于从所述经验回放区采样第一样本序列,并利用监督学习的方法对所述环境预测部分进行训练,并重复第一预设次数;强化模块,用于从所述经验回放区采样第二样本序列,并固定所述环境预测部分的参数不动,利用强化学习的方法对策略决策部分进行训练,并重复第二预设次数;获取模块,用于在网络收敛满足预设条件时,获取强化学习网络。本专利技术实施例的基于环境状态预测的深度强化学习装置,能够驱动智能体建立对当前所在环境特性的理解,对环境和自身的当前和未来全局状态进行预测,并结合了监督学习和强化学习的训练方式,在一定程度上解决了部分可观测问题和通用性问题,并且可以快速的迁移,有效提高学习效率。另外,根据本专利技术上述实施例的基于环境状态预测的深度强化学习装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,还包括:提取模块,用于通过卷积神经网络对原始图像数据进行特征提取。进一步地,在本专利技术的一个实施例中,还包括:融合模块,用于获取传感数据,并根据所述传感数据生成一维向量,并通过全解网络提取特征,以将所述卷积神经网络的输出拉平成一维向量,并和所述全连接网络的输出相连接,得到所有数据的特征向量,以及利用全连接层,将所述特征向量进行融合。进一步地,在本专利技术的一个实施例中,利用监督学习得到抽象环境特征,以通过所述抽象环境特征进行策略决策训练。进一步地,在本专利技术的一个实施例中,所述抽象环境特征st为:st=g(f(o0),f(o1),f(o2),…,f(ot)),其中,t为第t个时刻,st为t时刻的抽象环境特征,o0为第0时刻的观测值,o1为第1时刻的观测值,o2为第2个时刻的观测值,ot为第t个时刻的观测值,f(ot)为对t时刻的观测值使用映射f进行特征提取后的输出,g(f(o0),f(o1),f(o2),…,f(ot))为对t时刻以及t之前的观测进行特征提取,并针对这些特征使用映射g进行特征融合得到t时刻的抽象环境特征。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的基于环境状态预测的深度强化学习方法的流程图;图2为根据本专利技术一个实施例的基于环境状态预测的深度强化学习网络的整体结构示意图;图3为根据本专利技术一个实施例的特征提取和融合模块示意图;图4为根据本专利技术一个实施例的环境状态预测模块示意图;图5为根据本专利技术实施例的基于环境状态预测的深度强本文档来自技高网...

【技术保护点】
1.一种基于环境状态预测的深度强化学习方法,其特征在于,包括以下步骤:建立基于环境预测的深度强化学习网络,并根据环境的复杂度设定环境预测部分的网络规模,根据任务的特点选择合适的策略决策方法;初始化网络参数,并建立满足存储条件的存储区作为经验回放区;根据策略决策网络的输出选择合适的策略来与环境进行交互,并将交互过程的交互信息连续存储到所述经验回放区;从所述经验回放区采样第一样本序列,并利用监督学习的方法对所述环境预测部分进行训练,并重复第一预设次数;从所述经验回放区采样第二样本序列,并固定所述环境预测部分的参数不动,利用强化学习的方法对策略决策部分进行训练,并重复第二预设次数;在网络收敛满足预设条件时,获取强化学习网络。

【技术特征摘要】
1.一种基于环境状态预测的深度强化学习方法,其特征在于,包括以下步骤:建立基于环境预测的深度强化学习网络,并根据环境的复杂度设定环境预测部分的网络规模,根据任务的特点选择合适的策略决策方法;初始化网络参数,并建立满足存储条件的存储区作为经验回放区;根据策略决策网络的输出选择合适的策略来与环境进行交互,并将交互过程的交互信息连续存储到所述经验回放区;从所述经验回放区采样第一样本序列,并利用监督学习的方法对所述环境预测部分进行训练,并重复第一预设次数;从所述经验回放区采样第二样本序列,并固定所述环境预测部分的参数不动,利用强化学习的方法对策略决策部分进行训练,并重复第二预设次数;在网络收敛满足预设条件时,获取强化学习网络。2.根据权利要求1所述的基于环境状态预测的深度强化学习方法,其特征在于,还包括:通过卷积神经网络对原始图像数据进行特征提取。3.根据权利要求2所述的基于环境状态预测的深度强化学习方法,其特征在于,还包括:获取传感数据,并根据所述传感数据生成一维向量,并通过全解网络提取特征,以将所述卷积神经网络的输出拉平成一维向量,并和所述全连接网络的输出相连接,得到所有数据的特征向量,以及利用全连接层,将所述特征向量进行融合。4.根据权利要求1所述的基于环境状态预测的深度强化学习方法,其特征在于,利用监督学习得到抽象环境特征,以通过所述抽象环境特征进行策略决策训练。5.根据权利要求4所述的基于环境状态预测的深度强化学习方法,其特征在于,所述抽象环境特征st为:st=g(f(o0),f(o1),f(o2),…,f(ot)),其中,t为第t个时刻,st为t时刻的抽象环境特征,o0为第0时刻的观测值,o1为第1时刻的观测值,o2为第2个时刻的观测值,ot为第t个时刻的观测值,f(ot)为对t时刻的观测值使用映射f进行特征提取后的输出,g(f(o0),f(o1),f(o2),…,f(ot))为对t时刻以及t之前的观测进行特征提取,并针对这些特征使用映射g进行特征融合得到t时刻的抽象环境特征。6.一种基于环境状态预测的深度强化学习装置,其特征在于,...

【专利技术属性】
技术研发人员:陈峰陈达贵闫琪
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1