【技术实现步骤摘要】
应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法
[0001]本专利技术涉及人工智能领域,尤其涉及一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法。
技术介绍
[0002]在强化学习框架中,具有独立学习和决策能力的单位被称为智能体。智能体根据外界环境反馈的奖励信号调整自己的决策,以期获得尽可能多的奖励,从而达到最终的控制目标。奖励是引导智能体准确评价当前状态的价值、学习最优策略的关键因素。在工业生产过程控制、机器人控制等实际应用场景中,一方面,控制目标通常是使被控对象的位置、温度、压力等达到设定状态,除设定状态之外的其他状态均无法为智能体提供奖励信号,导致奖励信号在环境的状态空间上分布稀疏;另一方面,实际工程中的控制系统大部分时间处于平稳工况,工况切换和过渡过程等对于强化学习训练十分重要的样本相对缺乏,导致奖励信号在时间维度上分布稀疏。
[0003]在环境的空间维度、时间维度上分布稀疏且不均匀的奖励信号统称为稀疏奖励。稀疏奖励难以为智能体提供有效的引导,导致强化学习的状态价值评价不准确,策略迭代缓慢,难以在有限时间内找到完成既定控制目标的最优策略。稀疏奖励场景所导致的问题严重阻碍了强化学习方法在实际工程中的应用和落地。
[0004]为了提高强化学习算法在稀疏奖励场景下的表现,现有方法通过引入额外的奖励对原始奖励信号进行扩充,或通过贪婪算法、好奇心驱动算法优化智能体在环境状态空间中的探索路径,使智能体更广泛、有侧重性地学习环境的状态空间,提高智能体获得奖励信号的概率。然而,更加复杂的学习过程意味 ...
【技术保护点】
【技术特征摘要】
1.一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,其特征在于:包括:S1:历史数据预处理:从历史数据库中选择并截取出从初始状态到最终完成任务的完整过程作为样本,一个完整过程的样本包括初始状态s0、终止状态s
t
以s0和s
t
之间的所有中间状态;S2:引入折扣因子γ,计算所有样本的累积回报G
s
,统计累积回报的方差S2,找到满足要求的最优折扣因子γ
*
;S3:建立评价网络和决策网络,构建强化学习智能体;S4:使用自由探索与历史数据的混合学习方法,对智能体的评价网络和决策网络进行迭代训练,最终使智能体能够完成既定任务。2. 如权利要求1所述的一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,其特征在于:步骤S2中,累积回报G
s
的计算公式为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,τ为从0到k的整数,用以表示初始状态s0、终止状态s
k
以及两者之间所有的离散状态s
τ
,表示状态s
τ
对应的折扣因子,r(s
τ
)表示状态s
τ
对应的奖励。3. 如权利要求1所述的一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,其特征在于:步骤S2中,累积回报G
s
的方差S2:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,n表示历史数据预处理得到的样本数量,表示累积回报G
s
的平均值。4. 如权利要求1所述的一种应用于稀疏奖励场景的奖励塑造与数据混合强化学习方法,其特征在于:步骤S2中,最优的折扣因子γ
*<...
【专利技术属性】
技术研发人员:杨豫龙,郭琳炜,毕乐宇,贺江,曹卫华,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。