强化学习任务中高维连续动作空间离散化探索方法技术

技术编号：18459128 阅读：31 留言：0更新日期：2018-07-18 12:50

本发明专利技术公开了一种强化学习任务中高维连续动作空间离散化探索方法，通过量化操作将连续的动作空间转化成一个离散的动作空间，然后通过深度神经网络实现的自编码器对离散动作空间中的字典值进行降维编码并计数，再统计一定次数的策略更新中各字典值对应编码码字的出现次数，并将极少出现的字典值按概率从动作字典中移除，从而不断去除动作字典中的冗余，进而提高智能体策略更新时的搜索效率。

An exploration method for discretization of high dimensional continuous action space in reinforcement learning tasks

The invention discloses a method for exploring space discretization of high dimensional continuous action in intensive learning tasks. The continuous action space is converted into a discrete action space by quantizing operation, and then the self encoder is implemented by a deep neural network to reduce the dimension of the word code in the discrete action space and count it, and then the code is counted. The number of dictionaries in the policy update for a certain number of times is corresponding to the number of coded codewords, and the few dictionary values are removed from the action dictionary by probability, thus the redundancy in the action dictionary is removed, and then the search efficiency of the agent strategy updating is improved.

全部详细技术资料下载

【技术实现步骤摘要】
强化学习任务中高维连续动作空间离散化探索方法
本专利技术涉及人工智能、机器学习
，尤其涉及一种强化学习任务中高维连续动作空间离散化探索方法。
技术介绍
强化学习作为一种重要的机器学习方法，在智能控制机器人、人机博弈、临床医学及分析预测等领域有着诸多应用。强化学习独立于传统机器学习中监督学习和非监督学习之外，从智能主体和环境之间的交互中获得经验，从而完成智能主体从环境到行为映射的策略学习。在强化学习中，智能主体接受来自于环境的状态信息并基于学习的策略产生一个动作作用于环境，环境接受该动作后状态发生变化，同时产生一个回报值(奖励或惩罚)，并将变化后的当前状态和该反馈信号发送给智能主体，智能主体再根据接收到的信息更新策略并根据策略选择下一个决策结果(即动作)。强化学习系统的学习目标在于与环境的交互行为中，动态地调整智能主体自身的参数从而更新待学习的策略，使得环境反馈的正信号最大。强化学习算法的收敛过程可以看成是对动作空间进行搜索，从中发现最优策略的过程。对于动作空间高维且连续的学习任务，由于其动作空间较大，导致智能主体对策略的探索难度大、学习效率低。鉴于此，有必要进行深入研究，针对具有高维连续动作空间的强化学习任务，利用神经网络对其动作空间进行离散化，从而提高强化学习中智能主体的学习效率。
技术实现思路
本专利技术的目的是提供一种强化学习任务中高维连续动作空间离散化探索方法，可以提高强化学习算法的学习效率和稳定性。本专利技术的目的是通过以下技术方案实现的：一种强化学习任务中高维连续动作空间离散化探索方法，包括：步骤S1、对动作空间的每个维度进行量化，利用量化结...

【技术保护点】
1.一种强化学习任务中高维连续动作空间离散化探索方法，其特征在于，包括：步骤S1、对动作空间的每个维度进行量化，利用量化结果组成一个过完备的动作字典；步骤S2、利用动作字典中的字典值，训练一个深度神经网络实现的自编码器完成对动作字典中字典值的降维与编码；步骤S3、初始化一个值都为0的计数表，在智能主体与环境进行交互时，根据策略确定动作字典中相应的字典值作为动作，并对计数表中对应的计数值进行更新，从而完成一次策略更新；步骤S4、当智能主体与环境完成K次策略更新后，对于动作字典中的每一字典值，均结合其在计数表中的计数结果计算将其从动作字典移除的概率，以计算得到的概率将相应字典值从动作字典中移除，遍历动作字典中的每一个字典值，将保存下来的字典值作为新的动作字典；步骤S5、返回至步骤S3，继续进行策略更新直至收敛。

【技术特征摘要】
1.一种强化学习任务中高维连续动作空间离散化探索方法，其特征在于，包括：步骤S1、对动作空间的每个维度进行量化，利用量化结果组成一个过完备的动作字典；步骤S2、利用动作字典中的字典值，训练一个深度神经网络实现的自编码器完成对动作字典中字典值的降维与编码；步骤S3、初始化一个值都为0的计数表，在智能主体与环境进行交互时，根据策略确定动作字典中相应的字典值作为动作，并对计数表中对应的计数值进行更新，从而完成一次策略更新；步骤S4、当智能主体与环境完成K次策略更新后，对于动作字典中的每一字典值，均结合其在计数表中的计数结果计算将其从动作字典移除的概率，以计算得到的概率将相应字典值从动作字典中移除，遍历动作字典中的每一个字典值，将保存下来的字典值作为新的动作字典；步骤S5、返回至步骤S3，继续进行策略更新直至收敛。2.根据权利要求1所述的一种强化学习任务中高维连续动作空间离散化探索方法，其特征在于，取足够小的量化间隔△对D维动作空间的每个维度进行均匀量化，利用均匀量化结果组成一个过完备的动作字典Dict。3.根据权利要求1所述的一种强化学习任务中高维连续动作空间离散化探索方法，其特征在于，所述利用动作字典中的字典值，训练一个深度神经网络实现的自编码器完成对动作字典中字典值的降维与编码包括：对于动作字典D中任一个n维字典值ai，通过对自...

【专利技术属性】
技术研发人员：陈志波，张直政，陈嘉乐，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人