基于强化学习利用动态奖励示例样本训练智能体的方法技术

技术编号：25398715 阅读：64 留言：0更新日期：2020-08-25 23:03

本发明专利技术公开了一种基于强化学习利用动态奖励示例样本训练智能体的方法，包括步骤：1)从智能体中获取示例样本；2)用获取的示例样本初始化经验池，初始化训练网络，设定相关超参数值；3)用强化学习训练智能体，把训练过程中产生的样本也存入经验池；4)利用基于动态奖励的优先级抽样机制从经验池中抽取小批量样本；5)计算抽取样本的平均损失值，利用优化函数减小损失值来更新网络参数，若损失值减少到设定阈值，则深度强化学习停止，智能体训练完成，否则继续训练。本发明专利技术引入了动态奖励和优先级挑选机制，让智能体能够在很小数量的示例样本下自动挑选对学习有利的示例样本，从而提高了训练数据的利用率，极大的减少了训练智能体所需要的时间。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习利用动态奖励示例样本训练智能体的方法
本专利技术涉及机器学习、深度学习和强化学习的
，尤其是指一种基于强化学习利用动态奖励示例样本训练智能体的方法。
技术介绍
近年来随着计算机硬件水平的提升和大数据时代的到来，一大批需要强大计算力和海量数据的人工智能算法应运而生。而其中具有里程碑意义的事件则是由DeepMind团队开发的AlphaGo于2016年3月以4:1击败顶尖职业棋手李世石，成为第一个不借助让子而击败围棋职业九段棋手的计算机围棋程序。深度强化学习由此成为了通向通用人工智能最有可能的道路。但AlphaGo需要计算机集群上训练了数个月才能达到如此水平，其对硬件的高要求和过长的训练时间让深度强化学习的应用受到了极大的限制。提高数据的利用率，减少训练所需要的成本，成为了深度强化学习领域的重要课题。为了减少训练的时间，利用人类的经验或者已经训练好的其他的智能体(agent)的经验来帮助训练新的智能体是目前的一种解决思路。人类或其他智能体的经验被称为示例样本(demonstration)，其中目前利用示例样本可以大概分为两种方式：1、预训练(pre-training)：利用事先收集好的示例样本去训练一个智能体，然后在此的基础上再去训练该智能体完成我们需要的任务。2、奖励塑造(rewardshaping)：在训练的初期，智能体还没有学习到良好的策略经常表现很差时，奖励塑造的方法利用已经收集的示例样本作为参考，让智能体有更大的几率选择与最相似的示例样本的动作。其做法是让示例样本示例的动作有更大的奖励，...

【技术保护点】
1.基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于，包括以下步骤：/n1)从智能体中获取示例样本；其中，所述智能体指的是用深度强化学习实现的具有智能的程序，所述示例样本是一组示范在给定环境下该如何动作的四元组；/n2)利用在步骤1)中获取的示例样本初始化经验池，初始化计算机神经网络，设定相关超参数值；其中，所述经验池是计算机内存中一段能够存储示例样本的空间，所述超参数是指在训练神经网络时人为设定的一组参数；/n3)开始训练智能体，即用深度强化学习训练计算机神经网络，并且把训练智能体时产生的样本也存入经验池，与示例样本混合；/n4)利用基于动态奖励的优先级抽样机制从经验池中抽取小批量样本；其中，所述动态奖励的优先级抽样机制是一种用实时变化的奖励去控制样本优先级的机制；/n5)利用抽样出来的小批量样本计算神经网络的损失值，通过优化器函数减小损失值来更新网络参数，若损失值减少到设定阈值，则深度强化学习停止，智能体训练完成，否则跳到步骤3)继续训练。/n

【技术特征摘要】
1.基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于，包括以下步骤：
1)从智能体中获取示例样本；其中，所述智能体指的是用深度强化学习实现的具有智能的程序，所述示例样本是一组示范在给定环境下该如何动作的四元组；
2)利用在步骤1)中获取的示例样本初始化经验池，初始化计算机神经网络，设定相关超参数值；其中，所述经验池是计算机内存中一段能够存储示例样本的空间，所述超参数是指在训练神经网络时人为设定的一组参数；
3)开始训练智能体，即用深度强化学习训练计算机神经网络，并且把训练智能体时产生的样本也存入经验池，与示例样本混合；
4)利用基于动态奖励的优先级抽样机制从经验池中抽取小批量样本；其中，所述动态奖励的优先级抽样机制是一种用实时变化的奖励去控制样本优先级的机制；
5)利用抽样出来的小批量样本计算神经网络的损失值，通过优化器函数减小损失值来更新网络参数，若损失值减少到设定阈值，则深度强化学习停止，智能体训练完成，否则跳到步骤3)继续训练。

2.根据权利要求1所述的基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于：在步骤1)中，设示例样本的四元组表示为(s,a,r,s')，其中，s代表智能体所处的当前环境的状态，a代表智能体执行的动作，r代表执行该动作后环境所给的反馈，s'代表在状态s下经过动作a所到达的下一个状态。

3.根据权利要求1所述的基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于：在步骤2)中，需设定经验池的大小N和示例样本集合的大小n，N＞n，随机初始化计算机神经网络的参数，将示例样本存入经验池。

4.根据权利要求1所述的基于强化学习利用动态奖励示例样本训练智能体的方法，其特征在于：在步骤3)中，进行智能体训练是用深度Q网络算法来训练更新计算机神经网络，所述深度Q网络算法是一种深度强化学习算法，其结合了深度神经网络和Q网络算法，能够用来训练具有...

【专利技术属性】
技术研发人员：段智宏，陈百基，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人