The invention discloses an agent depth value function learning method based on state distribution perception sampling, which is used for an agent to learn value function quickly with fewer samples. It includes the following steps: 1) acquiring the empirical data for the learning value function of the agent, and defining the algorithm goal; 2) using convolutional neural network to preprocess the empirical data to obtain a more expressive feature set; 3) using unsupervised method to cluster the empirical data set in the feature space of the empirical data set. 4) According to the state distribution of the experiential data set, the sample state distribution sensing sampling method based on uniform sampling and cluster equal probability sampling interpolation is used to sample; 5) The agent uses the sampled samples to learn the value function. The invention is suitable for game games in the field of reinforcement learning, and can achieve better results quickly with fewer samples.
【技术实现步骤摘要】
一种基于状态分布感知采样的智能体深度价值函数学习方法
本专利技术属于增强学习领域,是机器学习领域的一个分支,特别地涉及一种基于经验数据状态分布感知的样本采样的方法。
技术介绍
样本选择是机器学习领域一个重要问题,选择方式的不同直接影响到模型学习的质量。在增强学习领域,从经验数据集中进行样本采样能够帮助克服样本相关性和遗忘早期样本的问题。样本采样的目标是要从样本集中选出能够加快模型收敛,并增强智能体对环境感知能力的样本。传统方法一般是采用随机均匀采样的方式从经验数据集中采样,这种方式容易造成样本不平衡问题,使得智能体学习速度较慢。现有的基于对样本属性感知的采样方法主要根据某种度量方式,比如时间差分误差,来对不同的样本设定不同的采样优先级。而这种方式并没有从根本上解决两个问题:1.不同状态的样本重要程度接近,但是产生的数量却相差较大,根据什么标准来从经验数据集中采样可以避免对冗余的样本进行过度采样;2.由于样本本身维度非常高、数目巨大且不断产生,因此有效地对大量高维样本进行分析是一个关键因素,如何才能高效地从不断产生的大量的样本集中采样。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于状态分布感知采样的智能体深度价值函数学习方法。该方法基于深度神经网络对智能体所处环境有效的特征表达,利用哈希的方法对样本集的特征进行高效地聚类分析,即对状态空间的感知,并采用基于状态感知的采样方式,能够更好地选择经验数据集中的样本,提高智能体的学习速率和质量。为实现上述目的,本专利技术的技术方案为:一种基于状态分布感知采样的智能体深度价值函数学习方法,包括以下步骤:S ...
【技术保护点】
1.一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于包括以下步骤:S1、获取用于智能体学习价值函数的经验数据,并定义算法目标;S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力;S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;S4、根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样;S5、智能体使用采样得到的样本数据进行价值函数的学习。
【技术特征摘要】
1.一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于包括以下步骤:S1、获取用于智能体学习价值函数的经验数据,并定义算法目标;S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力;S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;S4、根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样;S5、智能体使用采样得到的样本数据进行价值函数的学习。2.如权利要求1所述的一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于,步骤S1中所述的用于智能体学习价值函数的经验数据为四元组{s,a,r,s′},其中s表示智能体的状态,a表示智能体采取的动作,r表示智能体获得的奖励,s′表示智能体的下一状态;所述的算法目标为最大化智能体的累计奖励,累计奖励计算如下:其中γ是折现系数,且γ∈(0,1),t是智能体和环境的交互次数,rt为智能体在t次交互获得的奖励。3.如权利要求1所述的一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于,步骤S2中所述的预处理具体为:使用卷积神经网络对数据进行处理以获得表达性更强的状态特征,具体计算如下:其中fcnn()为卷积神经网络,θcnn为卷积参数,为提取到的si的深层卷积特征,si为经验数据集中第i个样本的原始状态特征;i=1,2,…,n,n...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。