一种基于模糊规则和决策树的策略强化学习方法技术

技术编号：36393656 阅读：24 留言：0更新日期：2023-01-18 09:58

本发明专利技术公开一种基于模糊规则和决策树的策略强化学习方法，基于策略生成模块、策略细化模块和规则决策模块，策略生成模块用于输出初始策略，策略细化模块用于优化初始策略以获得优化策略，规则决策模块用于评估优化策略和扩展模糊规则集；具体步骤如下：将模糊规则集输入策略生成模块，策略生成模块输出初始策略并将初始策略输入策略细化模块，策略细化模块输出优化策略；将优化策略输入规则决策模块，规则决策模块输出新的模糊规则集，新的模糊规则集进一步输入到策略生成模块；策略生成模块、策略细化模块和规则决策模块反复迭代形成自适应增长流程，并最终输出强化学习策略模型和全局最优的模糊规则集。和全局最优的模糊规则集。和全局最优的模糊规则集。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模糊规则和决策树的策略强化学习方法

[0001]本专利技术主要涉及策略强化学习算法，尤其涉及一种将决策树和模糊规则结合的具备自适应增长流程的策略强化学习方法。

技术介绍

[0002]强化学习(Reinforcement Learning，RL)是机器学习领域的重要分支，通常被认为是实现决策智能的重要手段。强化学习通过试错法(Trial and Error)来指导一个代理在环境中完成规定任务，它的基本思想就是通过反复奖励或惩罚代理使其逐渐学会一个最优策略[1]。强化学习主要解决如何在环境中做出决策的问题[1]，其基本方法是构建一个代理(Agent)和环境(Environment)不断交互的学习模型，在交互的每一个时间步中，代理获取关于环境状态 (State)的观察值(Observation)，之后对自身要采取的动作(Action)做出决策。动作作用于环境后，环境可能会发生变化。代理在采取动作后会得到环境的奖励(Reward)和此刻的状态。RL模型通过反复奖励代理的行为使RL代理学会最优决策。
[0003]基于上述描述，RL模型可以被规范为一个马尔科夫决策过程(Markov Decision Process， MDP)，通常用一个元组表示<S,A,P,R,γ>[1]，其中：
[0004](1)S表示状态空间，它描述环境的所有可观测的属性。
[0005](2)A表示动作空间，它描述代理可以在给定环境下采取的所有合法动作集，动作空间可分为离散动作空间和连续动作空间。...

【技术保护点】

【技术特征摘要】
1.一种基于模糊规则和决策树的策略强化学习方法，其特征在于，基于策略生成模块、策略细化模块和规则决策模块，策略生成模块和策略细化模块组成策略网络；其中策略生成模块用于输出初始策略，策略细化模块用于优化初始策略以获得优化策略，规则决策模块用于评估优化策略和扩展模糊规则集；具体步骤如下：根据强化学习环境确定初始的模糊规则集，模糊规则集为空的规则集或由若干序列化的模糊规则组成，之后将模糊规则集输入策略生成模块，策略生成模块输出初始策略并将初始策略输入策略细化模块，策略细化模块输出优化策略；将优化策略输入规则决策模块，规则决策模块输出新的模糊规则集，新的模糊规则集进一步输入到策略生成模块；策略生成模块、策略细化模块和规则决策模块反复迭代形成自适应增长流程，并最终输出强化学习策略模型和全局最优的模糊规则集。2.根据权利要求1所述一种基于模糊规则和决策树的策略强化学习方法，其特征在于，策略生成模块是在模糊决策树上结合模糊规则，以一条从根节点到叶子节点的节点路径作为一条预测路径，最终输出一个基于强化学习环境的当前状态S的初始策略τ(S)。3.根据权利要求2所述一种基于模糊规则和决策树的策略强化学习方法，其特征在于，策略生成模块在自适应增长流程中逐渐形成如下三条模糊规则a、b和c：a、如果s3满足NE且s4满足NE，那么动作选取a0；b、如果s3满足PO且s4满足NE，那么动作选取a0；c、如果s3满足PO且s4满足PO，那么动作选取a1；其中s3和s4是输入的对应强化学习环境的状态分量；NE和PO是输入的对应强化学习环境的模糊集语义，NE表示是负数的，PO表示是正数的；a0和a1是输入的对应强化学习环境的动作分量。模糊规则a对应的策略生成模块中的root
‑
leaf路径的计算如下：u
NE
是模糊集NE的隶属度函数，分别表示u
NE
对应决策节点的学习权重，是u
NE
对应叶子节点的学习权重，a0是模糊规则a最终决策选择的动作；模糊规则b对应的策略生成模块中...

【专利技术属性】
技术研发人员：苏苒，刘鹏，孙倩，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人