【技术实现步骤摘要】
一种强化学习方法及计算机可读存储介质
本专利技术涉及强化学习
,尤其涉及一种强化学习方法及计算机可读存储介质。
技术介绍
在强化学习过程中,对于数据的存储,以及训练时如何进行数据选取,是深度强化学习中最重要的工作之一。现有技术中,最常见通用的方法是对于已有数据进行等概率选取,然而这种方法对于数据本身信息的利用效率不足,传统的经验回放中的等概率选取方案,在噪声较大,或者无用尝试较多时,会使得重要的经验被选取进行训练的概率偏低,降低智能体的学习效率。现有技术中,在解决利用效率不足的情况时,时间复杂度较高。现有技术中,缺乏一种时间复杂度低的情况下提高数据利用率的强化学习方法。以上
技术介绍
内容的公开仅用于辅助理解本专利技术的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述
技术介绍
不应当用于评价本申请的新颖性和创造性。
技术实现思路
本专利技术为了解决现有的问题,提供一种强化学习方法及计算机可读存储介质。为了解决 ...
【技术保护点】
1.一种强化学习方法,其特征在于,包括如下步骤:/nS1:智能体决策网络接收任务环境给出的当前的状态t并基于所述当前的状态决策出动作t,发送给所述任务环境;/nS2:所述智能体决策网络接收所述任务环境基于所述动作t反馈回的奖励t和状态t+1,所述状态t、所述动作t、所述奖励t和所述状态t+1共同组成第一经验元祖;/nS3:所述智能体决策网络将所述第一经验元祖传给经验存储池,所述经验存储池将所述第一经验元祖中的状态t提供给状态激励模块,所述状态激励模块根据所述状态t返回一个激励奖励t给所述经验存储池;所述状态t、所述动作t、所述奖励t、所述激励奖励t和所述状态t+1共同组成第 ...
【技术特征摘要】
1.一种强化学习方法,其特征在于,包括如下步骤:
S1:智能体决策网络接收任务环境给出的当前的状态t并基于所述当前的状态决策出动作t,发送给所述任务环境;
S2:所述智能体决策网络接收所述任务环境基于所述动作t反馈回的奖励t和状态t+1,所述状态t、所述动作t、所述奖励t和所述状态t+1共同组成第一经验元祖;
S3:所述智能体决策网络将所述第一经验元祖传给经验存储池,所述经验存储池将所述第一经验元祖中的状态t提供给状态激励模块,所述状态激励模块根据所述状态t返回一个激励奖励t给所述经验存储池;所述状态t、所述动作t、所述奖励t、所述激励奖励t和所述状态t+1共同组成第二经验元祖;
S4:所述经验存储池提供一个新的位置用于存储所述第二经验元祖;
S5:重要度计算模块将当前所有经验的重要度最大值作为所述第二经验元组对应的重要度;概率选取模块根据所述重要度对应修改权值,并抽样一个批次的下标值给所述经验存储池,所述经验存储池将对应批次下标的一批经验元组传回给所述智能体决策网络;
S6:所述智能体决策网络收到所述经验元祖并进行训练;
S7:所述智能体决策网络训练结束后,将对应时间差误差计算得出后,返回给所述经验存储池;所述经验存储池将时间差误差传回给所述重要度计算模块,所述重要度计算模块修改对应位置的重要度信息;重要度计算模块将修改信息交给概率选取模块,概率选取模块对应修改权值;重复这个过程直到达到预定时间或次数。
2.如权利要求1所述的强化学习方法,其特征在于,所述重要度计算模块采用信心上限值方法进行重要度计算。
3.如权利要求2所述的强化学习方法,其特征在于,采用如下公式进行重要度计算:
CI(xi)=SP(δ,λ)+ηCP(cni)
其中:
其中,δ是时间差误差,λ是一个随时间线性增长的超参数,表示智能体模型当前学习能力的估计,SP函数根据学习能力和时间差误差的差距来...
【专利技术属性】
技术研发人员:袁春,朱新瑞,李思楠,
申请(专利权)人:清华大学深圳国际研究生院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。