一种基于分层深度强化学习的电动汽车充电引导策略方法技术

技术编号:32476835 阅读:28 留言:0更新日期:2022-03-02 09:39
本发明专利技术公开了一种基于分层深度强化学习的电动汽车充电引导策略方法,包括步骤:S1、构建考虑多种不确定因素的电动汽车充电引导两层随机优化模型;S2、将该两层随机优化模型转换为未知转移概率的马尔科夫决策过程;S3、在给定马尔科夫决策过程基础上提出一种改进的分层深度强化学习算法,并对其进行训练,得到最终的电动汽车充电引导策略。该方法使用了一种改进的分层深度强化学习算法,包含两层强化学习,上层强化学习用于对电动汽车充电引导目的地的优化,下层强化学习用于对电动汽车充电引导路径的优化。该方法能够在线实时对电动汽车进行充电引导,能够有效降低电动汽车充电旅途费用和充电费用,并且当环境改变后具有快速的自适应性能。的自适应性能。

【技术实现步骤摘要】
一种基于分层深度强化学习的电动汽车充电引导策略方法


[0001]本专利技术涉及电力

交通融合网优化的
,尤其是指一种基于分层深度强化学习的电动汽车充电引导策略方法。

技术介绍

[0002]电动汽车充电引导根据不同分类依据有不同的分法。根据引导方式可以分为两类:一是基于充电电价的间接充电引导;二是基于引导策略的直接充电引导。根据充电引导优化算法可以分为三类:一是基于智能进化算法的电动汽车充电引导方法;二是基于数学优化算法的电动汽车充电引导方法;三是基于强化学习算法的电动汽车充电引导方法。基于智能进化算法的电动汽车充电引导方法其优势在于可以长时间尺度上的充电引导策略和复杂的非线性模型,但是由于智能进化算法优化速度较慢,无法用于电动汽车的在线实时充电引导;基于数学优化算法的电动汽车充电引导尽管计算速度较块,但需要对交通流量

速度等非线性模型进行近似,并且需要进行大量的简化,因此存在一定的准确度问题。此外,数学优化算法在处理不确定优化问题时存在一定的保守度。基于强化学习的电动汽车充电引导方法其借助深度强化学本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分层深度强化学习的电动汽车充电引导策略方法,其特征在于,包括以下步骤:S1、构建考虑多种不确定因素的电动汽车充电引导两层随机优化模型;S2、将该两层随机优化模型转换为未知转移概率的马尔科夫决策过程;S3、在给定马尔科夫决策过程基础上提出一种改进的分层深度强化学习算法,并对其进行训练,得到最终的电动汽车充电引导策略;其中,改进的分层深度强化学习算法包含两层强化学习,上层强化学习用于对电动汽车充电引导目的地的优化,在此基础上,下层强化学习用于对电动汽车充电引导路径的优化。2.根据权利要求1所述的一种基于分层深度强化学习的电动汽车充电引导策略方法,其特征在于,所述步骤S1包括以下步骤:S101、建立考虑多种不确定因素的电动汽车充电引导随机优化模型电动汽车充电引导策略目标为最小化电动汽车充电总费用,该费用包括前往充电站的旅途费用和充电站中充电费用两部分,表达如下数学模型:s.t.s.t.s.t.s.t.s.t.s.t.k∈D,L∈Ω
ꢀꢀꢀꢀꢀ
(8)式中,表示电动汽车前往充电站k通过路径L的旅途费用;表示电动汽车在充电站k充电时的费用;l∈L表示充电路径上的一段道路;表示电动汽车前往充电站k通过道路l的花费的电量费用;表示电动汽车前往充电站k通过道路l所需的时间;β表示单位时间成本;表示电动汽车在充电站k时充电的电量费用;表示电动汽车在充电站k时的充电等待时间,本模型中其表示为随机变量;表示平均电价;α表示单位距离平均耗电量,本模型中其表示为随机变量;d
k,l
和v
k,l
表示电动汽车前往充电站k时道路l的距离和行驶速度;表示充电站k的实时电价;SOC
decide
和分别表示电动汽车决策时和到达充电站k时的剩余电量;E
max
表示电池的容量;λ表示单位距离的平均耗电量,即λ=α/E
max
;D和Ω表示充电站集合和前往充电站所有路径集合;以上数学模型,式(1)表示充电引导的目标函数,即最小化电动汽车前往充电站的旅途费用和充电费用;式(2)表示电动汽车旅途费用,由两部分组成:一是在路径L上消耗电量的
费用即式(4)所示,二是通过路径L所需要的时间费用即式(5)所示;式(3)表示电动汽车充电费用,由两部分组成:一是在充电站k时充电电量费用即式(6)所示,二是充电等待时间的成本;式(7)表示电动汽车剩余电量SOC变化情况;S102、建立考虑多种不确定因素的电动汽车充电引导两层随机优化模型从步骤S101中能够得出,电动汽车充电引导模型其实能够划分为两层随机优化,即当电动汽车由于电量低需要进行充电时,电动汽车用户首先需要根据当前的车况、交通和充电站状态选定某个目标充电站;然后,在充电目的地已经明确的前提下,寻找一条最优的行驶路线,使得电动汽车尽快到达充电目的地,同时期望充电时的花费尽可能小;建立考虑多种不确定因素的电动汽车充电引导两层随机优化模型如下:种不确定因素的电动汽车充电引导两层随机优化模型如下:s.t.s.t.s.t.s.t.k∈D,L∈Ω
ꢀꢀꢀꢀꢀꢀ
(15)式中,表示电动汽车前往充电站k时选择路径L的最小花费;上层目标为式(9)所示,其表示电动汽车选择充电站k以使得电动汽车在充电站中的费用和式(10)表示的下层充电旅途费用之和最小。3.根据权利要求1所述的一种基于分层深度强化学习的电动汽车充电引导策略方法,其特征在于,所述步骤S2包括以下步骤:S201、构建马尔科夫决策过程MDP的状态s
t
模型电动汽车充电引导策略包括充电目的地和充电路径决策;电动汽车目的地优化主要涉及到电动汽车和充电站两大主体,而电动汽车充电路径决策主要涉及电动汽车和交通网络两大主题,因此其MDP状态也将不一样,具体构建为:式中,为电动汽车充电目的地决策状态,其主要与电动汽车位置n
t
、剩余电量SOC
t
、各充电站电价各充电站预计等待时间和时间t相关;表示电动汽车充电路径决策状态,其主要与电动汽车位置n
t
、目的地位置CS
i
、剩余电量SOC
t
和时间t相关;S202、构建马尔科夫决策过程MDP的行为a
t
模型
在电动汽车充电引导状态给定的情况下,电动汽车驾驶员采取一个策略达到指定的充电站进行充电,该策略包括充电地点的决策和充电路径决策因此,其行为a
t
能够表示为:式中,CS
k
表示电动汽车前往充电站k进行充电,该充电地点位置由上层强化学习进行优化;表示电动汽车在当前所处位置n
t
时选择第j条充电路径;D表示所有充电站集合;表示电动汽车所处位置n
t
时的充电路径集合;S203、构建马尔科夫决策过程MDP的转移函数f模型从时间t到t+1的状态转移由电动汽车驾驶员采取的行为a
t
和随机变量w控制,其表达式为:s
t+1
=f(s
t
,a
t
,w
t
))式中,f(s
t
,a
t
,w
t
)表示转移函数f与状态s
t
、行为a
t
和随机变量w
t
相关;s
t+1
表示在t+1时刻的状态;n
t+1
表示t+1时刻电动汽车所处位置;表示道路的2个节点;SOC
t
和SOC
t+1
分别表示在t和t+1时刻的电动汽车剩余电量;E
max
表示电动汽车电池容量;表示道路的距离;α表示单位距离平均耗电量;S204、构建马尔科夫决策过程MDP的奖励函数r
t
模型当电动汽车前往充电站时,不同路径其交通流量会有所差别,从而导致行驶距离、消耗电量和行驶...

【专利技术属性】
技术研发人员:詹华江昌旭
申请(专利权)人:福建船政交通职业学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1