当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于状态分布感知采样的智能体深度价值函数学习方法技术

技术编号:19142201 阅读:20 留言:0更新日期:2018-10-13 08:59
本发明专利技术公开了一种基于状态分布感知采样的智能体深度价值函数学习方法,用于智能体在较少的样本下较快地学习价值函数。具体包括如下步骤:1)获取用于智能体学习价值函数的经验数据,并定义算法目标;2)使用卷积神经网络对经验数据进行预处理,得到表达能力更强的特征集;3)在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;4)根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行采样;5)智能体使用采样得到的样本进行价值函数的学习。本发明专利技术适用于增强学习领域的游戏博弈问题,能够在较少的样本量的情况下较快地取得较好的效果。

Learning method of deep value function of agents based on state distribution aware sampling

The invention discloses an agent depth value function learning method based on state distribution perception sampling, which is used for an agent to learn value function quickly with fewer samples. It includes the following steps: 1) acquiring the empirical data for the learning value function of the agent, and defining the algorithm goal; 2) using convolutional neural network to preprocess the empirical data to obtain a more expressive feature set; 3) using unsupervised method to cluster the empirical data set in the feature space of the empirical data set. 4) According to the state distribution of the experiential data set, the sample state distribution sensing sampling method based on uniform sampling and cluster equal probability sampling interpolation is used to sample; 5) The agent uses the sampled samples to learn the value function. The invention is suitable for game games in the field of reinforcement learning, and can achieve better results quickly with fewer samples.

【技术实现步骤摘要】
一种基于状态分布感知采样的智能体深度价值函数学习方法
本专利技术属于增强学习领域,是机器学习领域的一个分支,特别地涉及一种基于经验数据状态分布感知的样本采样的方法。
技术介绍
样本选择是机器学习领域一个重要问题,选择方式的不同直接影响到模型学习的质量。在增强学习领域,从经验数据集中进行样本采样能够帮助克服样本相关性和遗忘早期样本的问题。样本采样的目标是要从样本集中选出能够加快模型收敛,并增强智能体对环境感知能力的样本。传统方法一般是采用随机均匀采样的方式从经验数据集中采样,这种方式容易造成样本不平衡问题,使得智能体学习速度较慢。现有的基于对样本属性感知的采样方法主要根据某种度量方式,比如时间差分误差,来对不同的样本设定不同的采样优先级。而这种方式并没有从根本上解决两个问题:1.不同状态的样本重要程度接近,但是产生的数量却相差较大,根据什么标准来从经验数据集中采样可以避免对冗余的样本进行过度采样;2.由于样本本身维度非常高、数目巨大且不断产生,因此有效地对大量高维样本进行分析是一个关键因素,如何才能高效地从不断产生的大量的样本集中采样。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于状态分布感知采样的智能体深度价值函数学习方法。该方法基于深度神经网络对智能体所处环境有效的特征表达,利用哈希的方法对样本集的特征进行高效地聚类分析,即对状态空间的感知,并采用基于状态感知的采样方式,能够更好地选择经验数据集中的样本,提高智能体的学习速率和质量。为实现上述目的,本专利技术的技术方案为:一种基于状态分布感知采样的智能体深度价值函数学习方法,包括以下步骤:S1、获取用于智能体学习价值函数的经验数据,并定义算法目标;S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力;S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;S4、根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样;S5、智能体使用采样得到的样本数据进行价值函数的学习。上述方案中,各步骤可采用如下优选方式具体实现。作为优选,步骤S1中所述的用于智能体学习价值函数的经验数据为四元组{s,a,r,s′},其中s表示智能体的状态,a表示智能体采取的动作,r表示智能体获得的奖励,s′表示智能体的下一状态;所述的算法目标为最大化智能体的累计奖励,累计奖励计算如下:其中γ是折现系数,且γ∈(0,1),t是智能体和环境的交互次数,rt为智能体在t次交互获得的奖励。作为优选,步骤S2中所述的预处理具体为:使用卷积神经网络对数据进行处理以获得表达性更强的状态特征,具体计算如下:其中fcnn()为卷积神经网络,θcnn为卷积参数,为提取到的si的深层卷积特征,si为经验数据集中第i个样本的原始状态特征;i=1,2,…,n,n为经验数据集中的样本总数。作为优选,所述步骤S3包括以下子步骤:S31、使用静态哈希的方法SimHash将高维的数据转换为哈希码进行分析聚类,即:其中为的哈希码;A是一个k×D的转换矩阵,其元素从一个标准高斯分布N(0,1)中随机采样得到,k是哈希码的长度,D是的维度;S32、对n个哈希码按照汉明距离进行不同类别的分类统计,得到m个不同的簇,第j个簇包含的样本数量为numj,并且作为优选,步骤S4中样本采样方法具体为:在S3聚类分析得到的样本状态空间分布的基础上,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样,该采样方法中采样第i个样本的概率为:其中β是用来平衡均匀采样和簇等概率采样之间的超参数,β∈(0,1);numi表示第i个样本所在的簇包含的样本数量;得到每个样本的概率后,根据不同样本的概率从经验数据集中采集样本。作为优选,步骤S5具体为:使用S4所述采样方法从经验数据集中获取样本后,将其用于智能体学习价值函数,根据如下方程迭代地更新价值函数:其中Q(s,a)为价值函数,Q(s′,a′)下一时刻的价值函数,α为学习率。本专利技术的一种基于状态分布感知采样的智能体深度价值函数学习方法,相比于现有的增强学习的采样方法,具有以下有益效果:首先,本专利技术的一种基于状态分布感知采样的智能体深度价值函数学习方法解决了增强学习领域对经验数据采样中两个重要的问题,即大量高维、不断产生的样本空间分布的探索、高效采样方式的设计,可以有效地解决增强学习领域样本选择问题。其次,本专利技术的样本采样方法基于深度卷积神经网络建立结构化对应模型以模拟价值函数,并具有提取状态特征有效性的优点。深度卷积神经网络能够更好地表达视觉特征,另外,视觉特征的提取和使用哈希进行降维、分类被统一在同一个框架里,提高了方法的最终效果。最后,本专利技术的样本采样方法中提出使用非监督的方法对样本空间的分布进行感知,并通过基于样本分布的方法,近似均匀地在不同状态的样本之间进行采样,避免出现样本冗余现象。这种方法能够有效地提高价值函数的学习速度,同时能够提高智能体的学习质量。本专利技术的一种基于状态分布感知采样的智能体深度价值函数学习方法,在交互式游戏博弈中,能够有效提高样本使用效率,提升智能体的学习能力和学习质量,具有良好的应用价值。例如,在对抗作战类游戏场景里,本专利技术的样本采样方法使得智能体能够快速和准确地认知场景中不同的状态的特点,从而能够快速适应场景并采取相应的最有利的行动。附图说明图1为样本在状态空间中的分布示意图;图2为本专利技术提出的采样方式与传统采样对比的示意图:a)均匀采样示意图;b)簇等采样示意图;c)本专利技术的方法采样示意图图3为本专利技术提出的采样方式与传统采样方法在OpenAIgym控制类游戏中运行结果对比图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。相反,本专利技术涵盖任何由权利要求定义的在本专利技术的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本专利技术有更好的了解,在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。在本专利技术的较佳实施例中,展示了一种基于状态分布感知采样的智能体深度价值函数学习方法,主要涉及一种基于经验数据状态分布感知的样本采样的方法,包括以下步骤:S1、获取用于智能体学习价值函数的经验数据,并定义算法目标。本步骤中,用于智能体学习价值函数的每条经验数据为四元组{s,a,r,s′},其中s表示智能体的状态,a表示智能体采取的动作,r表示智能体获得的奖励,s′表示智能体的下一状态。算法目标为最大化智能体的累计奖励,累计奖励计算如下:其中γ是折现系数,且γ∈(0,1),t是智能体和环境的交互次数,rt为智能体在t次交互获得的奖励。S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力。本步骤中,一般智能体的原始状态特征具有维度高、数据冗余的特点(如Atari游戏原始状态由游戏像素表示)。本专利技术将原始状态特征si通过卷积神经网络转换为表达性更强的状态特征计算如下:其中fcnn()为卷积神经网络,θcnn为卷积参数,为提取到的si的深层卷积特征,s本文档来自技高网...

【技术保护点】
1.一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于包括以下步骤:S1、获取用于智能体学习价值函数的经验数据,并定义算法目标;S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力;S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;S4、根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样;S5、智能体使用采样得到的样本数据进行价值函数的学习。

【技术特征摘要】
1.一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于包括以下步骤:S1、获取用于智能体学习价值函数的经验数据,并定义算法目标;S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力;S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;S4、根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样;S5、智能体使用采样得到的样本数据进行价值函数的学习。2.如权利要求1所述的一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于,步骤S1中所述的用于智能体学习价值函数的经验数据为四元组{s,a,r,s′},其中s表示智能体的状态,a表示智能体采取的动作,r表示智能体获得的奖励,s′表示智能体的下一状态;所述的算法目标为最大化智能体的累计奖励,累计奖励计算如下:其中γ是折现系数,且γ∈(0,1),t是智能体和环境的交互次数,rt为智能体在t次交互获得的奖励。3.如权利要求1所述的一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于,步骤S2中所述的预处理具体为:使用卷积神经网络对数据进行处理以获得表达性更强的状态特征,具体计算如下:其中fcnn()为卷积神经网络,θcnn为卷积参数,为提取到的si的深层卷积特征,si为经验数据集中第i个样本的原始状态特征;i=1,2,…,n,n...

【专利技术属性】
技术研发人员:李玺李伟超皇福献
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1