基于短时访问机制的强化学习方法、装置及存储介质制造方法及图纸

技术编号：26260151 阅读：72 留言：0更新日期：2020-11-06 17:55

本公开涉及一种基于短时访问机制的强化学习方法、装置及存储介质，其中，该方法包括：配置状态缓存列表，用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息；将智能体下一时刻的所有动作输入环境状态转移概率模型中，输出所有动作对应下一时刻的多个环境状态；将下一时刻的多个环境状态与状态缓存列表中状态增量信息进行比对，将多个环境状态中差异最大的环境状态对应的动作确定为智能体在下一时刻执行的第一备选动作；根据第一备选动作执行用于强化学习的探索操作。本公开通过状态缓存列表，避免对探索过的环境状态重复探索；通过环境状态转移概率模型，强化、指导智能体对未知状态的探索，有效提高了学习效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于短时访问机制的强化学习方法、装置及存储介质
本公开涉及人工智能
，尤其涉及一种基于短时访问机制的强化学习方法、装置及存储介质。
技术介绍
强化学习，是指控制智能体(agent)与环境交互，以期使智能体能够在环境中获得最大奖励的学习方法。强化学习中面临的最重要问题之一是如何权衡(tradeoff)“探索”(exploration)与“利用”(exploitation)：过多依赖“探索”会降低智能体动作策略学习效率，过多依赖“利用”会导致智能体无法学习到更有效的动作策略；单纯依赖“探索”或“利用”都无法很好地完成强化学习任务。传统解决方法中通常利用基于计数的方法，即维护全局的状态计数表，对内存消耗较大；同时，通过间接添加较小的奖励的方式鼓励智能体探索访问次数少的区域，导致学习效率低。
技术实现思路
有鉴于此，本公开提出了一种基于短时访问机制的强化学习技术方案，用以解决智能体在强化学习过程中动作策略的学习效率低的问题。根据本公开的一方面，提供了一种基于短时访问机制的强化学习方法，所述方法包括：...

【技术保护点】
1.一种基于短时访问机制的强化学习方法，其特征在于，所述方法包括：/n配置状态缓存列表，所述状态缓存列表用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息；/n将智能体下一时刻的所有动作输入所配置的环境状态转移概率模型中，输出所有动作对应下一时刻的多个环境状态；/n将所述下一时刻的多个环境状态与所述状态缓存列表中状态增量信息进行比对，将多个环境状态中差异最大的环境状态所对应的动作确定为智能体在下一时刻执行的第一备选动作；/n根据所述第一备选动作执行用于强化学习的探索操作。/n

【技术特征摘要】
1.一种基于短时访问机制的强化学习方法，其特征在于，所述方法包括：
配置状态缓存列表，所述状态缓存列表用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息；
将智能体下一时刻的所有动作输入所配置的环境状态转移概率模型中，输出所有动作对应下一时刻的多个环境状态；
将所述下一时刻的多个环境状态与所述状态缓存列表中状态增量信息进行比对，将多个环境状态中差异最大的环境状态所对应的动作确定为智能体在下一时刻执行的第一备选动作；
根据所述第一备选动作执行用于强化学习的探索操作。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
根据所配置的动作策略模型得到智能体下一时刻执行的第二备选动作。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：
根据预设策略，选择将所述第一备选动作或所述第二备选动作确定为指定备选动作；
将所述指定备选动作在环境中予以执行，得到更新后的环境状态；
将所述更新后的环境状态添加到所述状态缓存列表中，控制所述智能体按照所述更新后的环境状态进行所述探索操作。

4.根据权利要求3所述的方法，其特征在于，所述根据预设策略，选择将所述第一备选动作或所述第二备选动作确定为指定备选动作，包括：
以q概率选择所述第一备选动作为所述指定备选动作；或者，
以1-q概率选择第二备选动作为所述指定备选动作；
其中，所述q为智能体在强化学习过程中进行探索的概率。

5.根据权利要求3或4所述的方法，其特征在于，所述控制所述智能体按照所述更新后的环境状态进行所述探索操作，包括：
根据所述更新后的环境状态，对所述所配置的环境状态转移概率模型和所述所配置的...

【专利技术属性】
技术研发人员：季向阳，张宏昌，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人