【技术实现步骤摘要】
一种基于Q学习的平均SAC深度强化学习方法和系统
[0001]本专利技术涉及深度强化学习
,特别是涉及一种基于Q学习的平均SAC深度强化学习方法和系统。
技术介绍
[0002]随着互联网的快速发展,人工智能的时代已经到来。人工智能是模拟人类思维方法的一个领域知识,生成一个完全具备自主学习能力的智能体是当下人工智能的主要任务。这些自主生成的智能体需要时刻与当下所处的环境进行交互,以完成信息交流和传递的任务。这些智能体设定的最终任务目标是通过与当下环境信息不断交互训练学习来选择最优动作,以达到当下环境下的智能体最优策略。此定义下的人工智能系统包括可以与周围环境交互的机器人,以及可与多媒体设备(例如计算机,移动电话等)和自然语言交互的基于纯软件的代理。当前深度强化学习是解决此交互性方案尤为适合的算法。深度强化学习其算法原理是智能体的自主学习训练能力。最近,对于机器学习中普遍存在的一些难题,比如计算复杂度高、内存占用巨大以及样本复杂度繁巨等,深度强化学习算法以其深度学习中的神经网络特性,均可以很好地解决或者缓解这些难题。但目前 ...
【技术保护点】
【技术特征摘要】
1.一种基于Q学习的平均SAC深度强化学习方法,其特征在于,具体包括以下步骤:S1,完成策略评估以进行软策略迭代:通过策略评估计算智能体在环境交互过程中的状态价值,将智能体的状态值函数近似为软Q值,从当前环境下智能体策略的单个操作样本中估算该软Q值;S2,计算价值网络的状态值函数:根据软Q值的计算公式求得价值网络的状态值函数,通过Q学习过程来训练状态值函数;S3,利用软Q网络的Q学习来训练软Q函数:根据步骤S2获得状态值,通过软Q网络的Q学习过程来训练软Q函数以完成智能体与环境的交互,使用目标价值函数的软Q值以及蒙特卡洛算法估计Q学习过程中产生的误差;S4,计算平均软Q值:在当前图像游戏智能体与环境之间交互过程中,选择前K个先前学习的软Q值,用来计算平均软Q值;S5,完成策略改进以进行学习优化:通过最小化与玻尔兹曼策略之间的KL差异来更新策略。2.根据权利要求1所述的一种基于Q学习的平均SAC深度强化学习方法,其特征在于,步骤S1具体包括以下步骤:S110,通过策略评估计算智能体在环境交互过程中的状态价值,软状态值函数定义为其中V代表当前智能体在当前回合下的状态价值函数,s
t
∈S是在t时间步长的智能体所处状态,a
t
是智能体在当前状态下执行时的操作,π是当前环境下智能体所采取的策略;S120,软Q函数定义为S130,将智能体的状态值函数近似为软Q值,从当前环境下智能体策略的单个操作样本中估算该软Q值。3.根据权利要求1所述的一种基于Q学习的平均SAC深度强化学习方法,其特征在于,步骤S2具体包括以下步骤:S210,根据软Q值的计算公式求得价值网络的状态值函数;S220,通过Q学习过程来训练状态值函数以减少样本数据误差,其计算公式如下其中D表示先前采样的状态分布,看作经验回放区的样本分布,在Averaged Soft Actor
‑
Critic算法中使用无偏估计函数来估计上述公式的算法梯度。4.根据权利要求1所述的一种基于Q学习的平均SAC深度强化学习方法,其特征在于,步骤S3具体包括以下步骤:S3根据步骤S2获得状态值,通过软Q网络的Q学习过程来训练软Q函数以完成智能体与环境的交互,使用目标价值函数的软Q值以及蒙特卡洛算法估计Q学习过程中产生的误差,Q学习过程来训练软Q函数的计算公式如下其中,D表示智能体与环境交互过程中先前采样的状态分布,亦可看作经验回放区的样
本分布,s
t
∈S是当前时间步骤下智能...
【专利技术属性】
技术研发人员:陈志奎,
申请(专利权)人:大连钜智信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。