当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于模糊规则和决策树的策略强化学习方法技术

技术编号:36393656 阅读:24 留言:0更新日期:2023-01-18 09:58
本发明专利技术公开一种基于模糊规则和决策树的策略强化学习方法,基于策略生成模块、策略细化模块和规则决策模块,策略生成模块用于输出初始策略,策略细化模块用于优化初始策略以获得优化策略,规则决策模块用于评估优化策略和扩展模糊规则集;具体步骤如下:将模糊规则集输入策略生成模块,策略生成模块输出初始策略并将初始策略输入策略细化模块,策略细化模块输出优化策略;将优化策略输入规则决策模块,规则决策模块输出新的模糊规则集,新的模糊规则集进一步输入到策略生成模块;策略生成模块、策略细化模块和规则决策模块反复迭代形成自适应增长流程,并最终输出强化学习策略模型和全局最优的模糊规则集。和全局最优的模糊规则集。和全局最优的模糊规则集。

【技术实现步骤摘要】
一种基于模糊规则和决策树的策略强化学习方法


[0001]本专利技术主要涉及策略强化学习算法,尤其涉及一种将决策树和模糊规则结合的具备自适应增长流程的策略强化学习方法。

技术介绍

[0002]强化学习(Reinforcement Learning,RL)是机器学习领域的重要分支,通常被认为是实现决策智能的重要手段。强化学习通过试错法(Trial and Error)来指导一个代理在环境中完成规定任务,它的基本思想就是通过反复奖励或惩罚代理使其逐渐学会一个最优策略[1]。强化学习主要解决如何在环境中做出决策的问题[1],其基本方法是构建一个代理(Agent)和环境(Environment)不断交互的学习模型,在交互的每一个时间步中,代理获取关于环境状态 (State)的观察值(Observation),之后对自身要采取的动作(Action)做出决策。动作作用于环境后,环境可能会发生变化。代理在采取动作后会得到环境的奖励(Reward)和此刻的状态。RL模型通过反复奖励代理的行为使RL代理学会最优决策。
[0003]基于上述描述,RL模型可以被规范为一个马尔科夫决策过程(Markov Decision Process, MDP),通常用一个元组表示<S,A,P,R,γ>[1],其中:
[0004](1)S表示状态空间,它描述环境的所有可观测的属性。
[0005](2)A表示动作空间,它描述代理可以在给定环境下采取的所有合法动作集,动作空间可分为离散动作空间和连续动作空间。
[0006](3)P:S
×
A
×
S

[0,1]是一个状态转移的概率分布函数,它描述代理在时刻t下观测到环境的状态s
t
,执行动作a
t
后转移到下一时刻t+1下状态s
t+1
的概率。
[0007](4)R:S
×
A

r是一个奖励函数,它描述代理在时刻t下观测到环境的状态s
t
,执行动作a
t
后获得的即时奖励r
t
。代理的目标是最大化一个轨迹τ(Trajectories,也叫Episodes或者 Rollouts)的累计奖励,这个轨迹τ通常是一个有限长度T的状态动作对序列,可以表示如下所示:
[0008]τ=(s0,a0,s1,a1,...s
T
,a
T
)
[0009](5)γ∈[0,1]是一个折扣因子,它描述代理在即时奖励和长期奖励之间的偏好,折扣因子越低表示代理越看重即时奖励,而较高的折扣因子,会让代理的累计奖励中更加平衡即时奖励和长期奖励之间的权重。在MDP中,未来每个时间步所获得的即时奖励都必须乘以一个折扣因子γ,则从时刻t到时刻T轨迹τ结束时,累计奖励定义如下:
[0010][0011]折扣因子的使用本质上是一种数学上的处理技巧,因为在数学上一个无穷长度的奖励累加和可能不会收敛到一个有限值,且在方程中很难处理。但是有折扣因子且处于合理条件下,无穷和会收敛。
[0012]强化学习通常所述的策略π:S
×
A

[0,1]是一个状态空间到动作空间的概率分布函数,它描述代理在时刻t下观测到环境的状态s
t
,执行动作a
t
的概率。
[0013]早期的强化学习研究使用基于贝尔曼方程的动态规划法[2]或者结合时序差分算法的 Q

Learning[3]来求解强化学习问题,但是都饱受维度灾难[4]的困扰,无法应用到具有高维状态空间的RL任务。近年来,由于深度学习的发展,以DQN[5](Deep Q

Network)为代表的深度强化学习方法成为强化学习领域的主要研究热点。深度强化学习可以简单理解为:在强化学习模型中使用以深度神经网络为代表的深度学习技术来拟合值函数和策略函数等。
[0014]近年来,强化学习能取得较大进展主要归功于深度神经网络的发展[5]。在深度神经网络技术的支持下,强化学习代理可以在很多复杂任务中学得人类级别的控制策略[6]。遗憾的是,在略微复杂的环境中,使用深度强化学习技术从零开始训练代理通常需要数以万计的回合[7]。但是根据经验,人类在接触一项新任务时需要先了解很多基础知识,例如人类在玩复杂的游戏时通常都有一个新手训练阶段来辅助玩家尽快掌握游戏玩法。所以利用人类的先验知识训练RL代理是目前很多研究的通用做法,其中最常见的是将先验知识保存为神经网络参数形式,例如策略蒸馏[8

10]、模仿学习[11

13]等,其次是将先验知识表示为决策树[14,15]和模糊规则 [16

18]等形式。
[0015]以神经网络参数形式表示先验知识是非常经典的方法。2015年,Rusu等人[8]在策略蒸馏方法中将训练好的专家策略迁移到一个未训练过的网络中进行再训练,以降低部署难度,该处理方式可视为将以神经网络参数形式表示的先验知识从一个已训练好的网络迁移到另一个还未训练的网络。Ho等人[11]在研究中使用模仿学习技术,该技术思路是先通过监督学习从收集到的专家轨迹中恢复专家策略,之后再使用强化学习技术进一步优化专家策略。该研究将深度学习学到的先验知识以强化学习方式进行再优化,也是将先验知识保存为神经网络参数形式。使用神经网络参数的方法可解释性较差,在进行知识迁移或蒸馏操作时难以对先验知识进行针对性编码,只能以黑盒方式在相似的神经网络模型间迁移[19,20]。
[0016]深度学习领域存在很多利用决策树表示人类先验知识的方法。1994年Jordan和Jacobs[14] 提出一种树结构的名为分层混合专家(HME)的方法,该方法是最早使用决策树的研究工作之一。2014年Irsoy等人[21]提出一种名为“萌芽树”的模糊决策树方法,“萌芽树”中的一个节点既可以作为叶子节点,也可以作为内部决策节点,它通过“生长”算法来有限地修改自身结构,“萌芽树”的提出有力推动了模糊决策树研究的进展。2017年,Frosst和Hinton[22]使用一种软决策树从一个训练好的神经网络中提取知识,以尝试解释神经网络的分类决策,该方法的实验结果证明,该方法比直接从训练数据中学习软决策树具有更好的泛化能力。2019年 Tanno等人[23]将神经网络和决策树结合为一种自适应神经树(ANT),该树的结构可以随着训练的进行而不断调整,并在多个分类和回归任务中表现出较高性能。
[0017]虽然上述决策树研究都在各自任务中取得了较好效果,但是它们被设计用于图像分类领域,无法作为一种通用算法模块直接用于策略强化学习领域。2016年Leon和Denoyer[24]提出一种新颖的强化决策树(RDT),该方法用强化学习方式训练决策树算法来解释图像分类问题,虽然该方法使用了强化学习的训练方式,但是它没有从强化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模糊规则和决策树的策略强化学习方法,其特征在于,基于策略生成模块、策略细化模块和规则决策模块,策略生成模块和策略细化模块组成策略网络;其中策略生成模块用于输出初始策略,策略细化模块用于优化初始策略以获得优化策略,规则决策模块用于评估优化策略和扩展模糊规则集;具体步骤如下:根据强化学习环境确定初始的模糊规则集,模糊规则集为空的规则集或由若干序列化的模糊规则组成,之后将模糊规则集输入策略生成模块,策略生成模块输出初始策略并将初始策略输入策略细化模块,策略细化模块输出优化策略;将优化策略输入规则决策模块,规则决策模块输出新的模糊规则集,新的模糊规则集进一步输入到策略生成模块;策略生成模块、策略细化模块和规则决策模块反复迭代形成自适应增长流程,并最终输出强化学习策略模型和全局最优的模糊规则集。2.根据权利要求1所述一种基于模糊规则和决策树的策略强化学习方法,其特征在于,策略生成模块是在模糊决策树上结合模糊规则,以一条从根节点到叶子节点的节点路径作为一条预测路径,最终输出一个基于强化学习环境的当前状态S的初始策略τ(S)。3.根据权利要求2所述一种基于模糊规则和决策树的策略强化学习方法,其特征在于,策略生成模块在自适应增长流程中逐渐形成如下三条模糊规则a、b和c:a、如果s3满足NE且s4满足NE,那么动作选取a0;b、如果s3满足PO且s4满足NE,那么动作选取a0;c、如果s3满足PO且s4满足PO,那么动作选取a1;其中s3和s4是输入的对应强化学习环境的状态分量;NE和PO是输入的对应强化学习环境的模糊集语义,NE表示是负数的,PO表示是正数的;a0和a1是输入的对应强化学习环境的动作分量。模糊规则a对应的策略生成模块中的root

leaf路径的计算如下:u
NE
是模糊集NE的隶属度函数,分别表示u
NE
对应决策节点的学习权重,是u
NE
对应叶子节点的学习权重,a0是模糊规则a最终决策选择的动作;模糊规则b对应的策略生成模块中...

【专利技术属性】
技术研发人员:苏苒刘鹏孙倩
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1