一种基于改进的Q-learning的最优决策方法技术

技术编号:27937691 阅读:28 留言:0更新日期:2021-04-02 14:18
本发明专利技术公开了一种基于改进的Q‑learning的最优决策方法,包括以下步骤:步骤一、非线性系统模型构建;步骤二、马尔科夫模型构建;步骤三、Q‑learning算法求解;步骤四、Q‑learning算法中改进的动作选择策略;步骤五、改进的Q‑learning算法更新决策。本发明专利技术采用改进的Q‑learning算法实现非线性系统的最优决策,通过采用改进的动作选择策略进行系统的动作选择,解决了Q‑learning算法中的探索开发平衡问题,并使算法收敛速度快;本发明专利技术提出的改进的Q‑learning算法可以在无系统先验信息或系统数据的情况下实现对非线性离散系统的最优决策。

【技术实现步骤摘要】
一种基于改进的Q-learning的最优决策方法
本专利技术涉及系统决策领域,是一种基于Q-learning算法实现对系统的最优决策方法。Q-learning算法是强化学习领域的一种无模型典型算法,可以实现在无系统先验信息情况下对系统进行决策的方法。
技术介绍
决策技术是指为了实现某一特定目标,根据客观事实或在具有一定先验信息的基础上,借助一定的方法,对影响事件的各种因素进行评估分析,最终得出的决定。决策在人们的日常生活、经济、技术中普遍存在。决策结果的好坏以及准确性对事件的影响极为重要。由此可以看出,决策技术是一门紧密结合实际生产的工程学科。随着科学技术的不断发展进步,需要对某一系统或事件进行精准的最优决策。但是在实际生活中,由于系统的非线性特性,很难对系统进行精确的模型构建。此外,现有的决策方法需要系统的先验信息,但系统的先验信息或者数据很难获得,且获得的数据信息具有不完备、不确定、冲突性等特性很难进行精准的决策。强化学习是机器学习中的一种,但又不同于典型的机器学习。强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励获得学本文档来自技高网...

【技术保护点】
1.一种基于改进的Q-learning的最优决策方法,其特征在于,包括下述步骤:/n步骤一:非线性系统模型构建/n考虑的典型非线性离散约束系统的数学表达式为:/n

【技术特征摘要】
1.一种基于改进的Q-learning的最优决策方法,其特征在于,包括下述步骤:
步骤一:非线性系统模型构建
考虑的典型非线性离散约束系统的数学表达式为:



其中,f(·)表示的是非线性系统,si代表的是状态向量,ai表示输入向量,Ωa代表约束集合,定义为:Ωa={gi(·),i=1,2,…,n},gi(·)代表多项式;
步骤二:马尔科夫模型构建
采用强化学习求解过程中,需进行马尔科夫(MDP)模型构建;MDP模型包括系统的状态空间:S=(s1,s2,…,ss),动作空间A={a1,a2,…,ai},状态转移概率以及系统的奖励R;根据系统的实际情况对S,A,R进行确定,并确定整个系统中智能体和环境的代表物;
(1)状态空间:S=(s1,s2,…,ss):在系统运行过程中所有的环境的状态集合;
(2)动作空间:A={a1,a2,…,ai}:在系统运行过程中智能体所采取的所有动作的集合;
(3)状态转移概率表示为一个概率模型,即在状态s下采取动作a转到下一个状态s′的概率;
(4)奖励R:系统在运行过程中在某一状态s以及某一动作a下,系统给予的奖励值或者惩罚值;
步骤三:Q-learning算法求解
实现对非线性离散约束系统的最优决策目的是找到一个最优策略π:π:S→A,即a=π(s),使得系统在有约束的条件下做出最佳决策;策略的选择由环境和智能体经过反复探索试错,最终在某一策略下得到系统立即奖励和未来奖励值加和最大的策略为最优策略,定义如下:



其中γ是折扣系数,代表未来奖励值的占比情况,γ∈(0,1);Π代表一系列策略的集...

【专利技术属性】
技术研发人员:蒋雯黄方慧耿杰邓鑫洋
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1