应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法技术

技术编号:38327787 阅读:15 留言:0更新日期:2023-07-29 09:10
本发明专利技术提供了一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,包括:历史数据预处理:从历史数据库中选择并截取出从初始状态到最终完成任务的完整过程作为样本,一个完整过程的样本包括初始状态s0、终止状态s

【技术实现步骤摘要】
应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法


[0001]本专利技术涉及人工智能领域,尤其涉及一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法。

技术介绍

[0002]在强化学习框架中,具有独立学习和决策能力的单位被称为智能体。智能体根据外界环境反馈的奖励信号调整自己的决策,以期获得尽可能多的奖励,从而达到最终的控制目标。奖励是引导智能体准确评价当前状态的价值、学习最优策略的关键因素。在工业生产过程控制、机器人控制等实际应用场景中,一方面,控制目标通常是使被控对象的位置、温度、压力等达到设定状态,除设定状态之外的其他状态均无法为智能体提供奖励信号,导致奖励信号在环境的状态空间上分布稀疏;另一方面,实际工程中的控制系统大部分时间处于平稳工况,工况切换和过渡过程等对于强化学习训练十分重要的样本相对缺乏,导致奖励信号在时间维度上分布稀疏。
[0003]在环境的空间维度、时间维度上分布稀疏且不均匀的奖励信号统称为稀疏奖励。稀疏奖励难以为智能体提供有效的引导,导致强化学习的状态价值评价不准确,策略迭代缓慢,难以在有限时间内找到完成既定控制目标的最优策略。稀疏奖励场景所导致的问题严重阻碍了强化学习方法在实际工程中的应用和落地。
[0004]为了提高强化学习算法在稀疏奖励场景下的表现,现有方法通过引入额外的奖励对原始奖励信号进行扩充,或通过贪婪算法、好奇心驱动算法优化智能体在环境状态空间中的探索路径,使智能体更广泛、有侧重性地学习环境的状态空间,提高智能体获得奖励信号的概率。然而,更加复杂的学习过程意味着更大的计算负担和时间开销。

技术实现思路

[0005]为了解决上述问题,本专利技术提供了一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,该方法包括:S1:历史数据预处理:从历史数据库中选择并截取出从初始状态到最终完成任务的完整过程作为样本,一个完整过程的样本包括初始状态s0、终止状态s
t
以s0和s
t
之间的所有中间状态;S2:引入折扣因子γ,计算所有样本的累积回报G
s
,统计累积回报的方差S2,找到满足要求的最优折扣因子γ
*
;S3:建立评价网络和决策网络,构建强化学习智能体;S4:使用自由探索与历史数据混合学习方法,对智能体的评价网络和决策网络进行迭代训练,最终使智能体能够完成既定任务。
[0006]进一步地,累积回报G
s
的计算公式为:(1)
其中,τ为从0到k的整数,用以表示初始状态s0、终止状态s
k
以及两者之间所有的离散状态s
τ
,表示状态s
τ
对应的折扣因子,r(s
τ
)表示状态s
τ
对应的奖励。
[0007]进一步地,累积回报G
s
的方差S2:(2)其中,n表示历史数据预处理得到的样本数量,表示累积回报G
s
的平均值。
[0008]进一步地,最优的折扣因子γ
*
:(3)其中,k表示方差S2的阈值。
[0009]进一步地,使用自由探索与历史数据混合学习方法时,需要计算从当前状态s开始到达终点的累积回报的期望,将其定义为状态价值V
π
(s):(4)其中,π代表当前决策网络的策略,E
π
[]表示按照当前策略π执行完从开始到终止的完整过程后所能求得的数学期望,G
s
表示累积回报。
[0010]进一步地,当前状态的即时奖励r(s,a),s为当前状态,a为在连续的动作空间中挑选的动作,下一状态的实际状态价值V
π
(s+1),计算实际状态价值与预测状态价值的差值δ
t
:(5)其中,V
*
(s)表示评价网络预测的预测状态价值;评价网络以δ
t
作为梯度进行更新,从而不断提高V
*
(s)估计的准确度。
[0011]进一步地,决策网络以θ
'v
作为梯度进行更新,从而不断提高最优动作被选中的概率,逐渐逼近最优策略,梯度θ
'v
的计算公式为:(6)式中,P(a|s)表示在当前状态s下选择动作a的概率。
[0012]本专利技术提供的技术方案带来的有益效果是:有效地提高了强化学习在稀疏奖励场景下迭代学习的效率和稳定性。
附图说明
[0013]下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术实施例中一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法的流程图。
[0014]图2是本专利技术实施例中所提出智能体的结构示意图。
[0015]图3是本专利技术实施例中状态价值估计曲线图。
[0016]图4是本专利技术实施例中使用混合学习方法的神经网络损失值下降曲线图。
[0017]图5是本专利技术实施例中不使用混合学习方法的神经网络损失值下降曲线图。
具体实施方式
[0018]为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本专利技术的具体实施方式。
[0019]本专利技术的实施例提供了一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,该方法提出了折扣因子自适应的奖励塑造方法,根据塑造后奖励的分布特征调整强化学习算法中的折扣因子,提高状态价值估计的准确性、客观性,实现对策略迭代的正确引导。同时还提出了自由探索与历史数据的混合学习方法,利用控制系统的历史数据对智能体进行训练,缩短智能体学习时间,提高智能体策略迭代的稳定性。
[0020]请参考图1,图1是本专利技术实施例中一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法的流程图,具体包括:首先,进行历史数据预处理。从历史数据库中选择并截取出从初始状态到最终完成任务的完整过程作为样本,一个完整过程样本包括初始状态s0、终止状态s
t
以s0和s
t
之间的所有中间状态。
[0021]其次,进行折扣因子自适应计算。累积回报G
s
是从初始状态s0到终止状态s
t
所获得的即时奖励r的总和,所以,累积回报G
s
的计算公式为:(1)其中,τ为从0到k的整数,用以表示初始状态s0、终止状态s
k
以及两者之间所有的离散状态s
τ
,表示状态s
τ
对应的折扣因子,r(s
τ
)表示状态s
τ
对应的奖励。
[0022]为了确保计算得到的累积回报G
s
有界,引入折扣因子γ∈(0,1)。折扣因子γ决定了如何权衡当前奖励和未来奖励,在最近的奖励和未来的奖励之间进行折中。若γ=0,累积回报等价于即时奖励,学习算法只关注于当前时刻的奖励,而无视该状态和动作的长远影响。若γ=1,学习算法会认为当前奖励与未来奖励同等重要,学习更具有前瞻性。
[0023本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,其特征在于:包括:S1:历史数据预处理:从历史数据库中选择并截取出从初始状态到最终完成任务的完整过程作为样本,一个完整过程的样本包括初始状态s0、终止状态s
t
以s0和s
t
之间的所有中间状态;S2:引入折扣因子γ,计算所有样本的累积回报G
s
,统计累积回报的方差S2,找到满足要求的最优折扣因子γ
*
;S3:建立评价网络和决策网络,构建强化学习智能体;S4:使用自由探索与历史数据的混合学习方法,对智能体的评价网络和决策网络进行迭代训练,最终使智能体能够完成既定任务。2. 如权利要求1所述的一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,其特征在于:步骤S2中,累积回报G
s
的计算公式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,τ为从0到k的整数,用以表示初始状态s0、终止状态s
k
以及两者之间所有的离散状态s
τ
,表示状态s
τ
对应的折扣因子,r(s
τ
)表示状态s
τ
对应的奖励。3. 如权利要求1所述的一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,其特征在于:步骤S2中,累积回报G
s
的方差S2:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,n表示历史数据预处理得到的样本数量,表示累积回报G
s
的平均值。4. 如权利要求1所述的一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,其特征在于:步骤S2中,最优的折扣因子γ
*<...

【专利技术属性】
技术研发人员:杨豫龙郭琳炜毕乐宇贺江曹卫华
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1