当前位置: 首页 > 专利查询>聊城大学专利>正文

一种基于制造技术

技术编号:39424691 阅读:8 留言:0更新日期:2023-11-19 16:11
本发明专利技术公开了一种基于

【技术实现步骤摘要】
一种基于Q

Learning强化学习的状态空间缩减方法


[0001]本专利技术涉及电动汽车的能量管理
,具体涉及一种基于
Q

Learning
强化学习的状态空间缩减方法


技术介绍

[0002]基于强化学习的控制策略是人工智能技术在电动汽车领域的一种创新性应用,如:基于
Q

Learning
控制策略,其自我学习

系我增强的控制特点,规避了控制策略的控制缺陷,可有效解决未知动态工况下的最优控制问题

[0003]但是该类策略对控制器的算力有着较高的要求,目前仅限于理论研究阶段,难以实际应用于实车控制

[0004]原因在于:基于
Q

Learning
的控制策略要求当先动作能够精确捕捉当前状态,因此需要对状态空间进行精细化设计,以插电式混合动力汽车为例,需要至少3个变量为状态,如将每个状态划分为离散的
100
份,则状态矩阵的大小为
100
×
100
×
100=1000000
,如此庞大的状态矩阵将导致现有控制器的算力失效;基于深度强化学习的控制策略由于嵌入了多层神经网络,需要加装价格昂贵的
GPU
进行运算,但是,由于
GPU
价格昂贵和国外底层封锁等原因,基于该类算法的控制策略难以实现产业化应用

因此一个状态空间的缩减方法对于现阶段的能量管理的实车应用是至关重要的

[0005]专利
CN2021107548591
公开了一种基于
Q

Learning
的强化学习的状态空间缩减方法,该方法面向
Q

Learning
强化学习算法中使用两状态参数的情况,对两状态所组成的二维状态平面的坐标轴进行规划,类似于国际象棋的棋盘,将原有二维平面拆解为
n
×
m
个棋格区域,并为每个小方格区域进行状态量命名,并以此进行回报函数的设定,通过这种方法将原有的二维状态空间大大缩减,同时实现了实现了无电池荷电状态
SOC
参考轨迹的强化学习智能能量管理控制策略

其存在以下缺点:状态缩减方法在固定工况下的能量管理策略中的效果较好,但是在不同工况的情况下仅凭电池荷电状态
SOC
和归一化路程
LD
很难表征不同的组合工况


技术实现思路

[0006]本专利技术要解决的技术问题是提供一种基于
Q

Learning
强化学习的状态空间缩减方法,该方法将三状态参数下较大的状态空间进行缩减,从而可以将强化学习算法应用于整车控制器中

[0007]为解决上述技术问题,本专利技术采用如下技术手段:一种基于
Q

Learning
强化学习的状态空间缩减方法,该方法包括以下步骤:
P1
:状态参数的选取,选取电池荷电状态
SOC、
归一化路程
LD
以及当前行驶距离当前行驶距离
DIS
为状态参数;
P2
:以步骤
p1
选择的三种状态参数为
X

、Y

、Z
轴,构造一个三维空间,并对该空间进行区间划分,将
X
轴的归一化路程
0~1
划分为
n
等份,
n
小于
100
;将
Z
轴的电池荷电状态
SOC 0~1
划分为
m
等份,
m
小于
100
;将
Y
轴的当前行驶距离划分为
i
等份,
i
小于
100
;沿
X

、Y

、Z
轴的等分点分别平行于坐标轴的直线将三维空间划分成由小的立方块构成的空间,空间类似于“魔方”结构,将每个小的立方块的三维区域视为一个状态变量,并进行依次编号,从而缩减了状态变量;
P3
:获取最优电池荷电状态
SOC
轨迹分布,以步骤
P1
选择的三种状态参数为
X

、Y

、Z
轴,构造出一个三维空间,以步骤
P2
中三维空间划分方法,将本步骤的上述三维空间同样划分为小的立方块构成的空间,在此基础上进行每个立方块的回报值的确定,根据最优电池荷电状态
SOC
轨迹的分布获取有效控制区间,其中电池荷电状态
SOC
轨迹经过的立方块的区域视为有效控制区间,有效控制区间内回报值为正,有效控制区外回报为负,同时偏离有效控制区间的程度越大,惩罚值越大

同时为了引导电池荷电状态
SOC
逐渐接近目标范围,归一化路程
LD
值越大,有效控制区间内的奖励值越大,相应的偏离有效控制区间的惩罚值也越大;当前形式距离当前行驶距离
DIS
越大,惩罚和奖励值也会相应增大

[0008]获取最优电池荷电状态
SOC
轨迹分布为现有技术,简述如下,使用庞特里亚金极小值原理算法(
Pontryagin

s minimum principle, PMP
),动态规划(
Dynamic Programming,DP
)等离线优化算法,预先对目标城市的历史工况进行离线优化,设定合适的电池荷电状态
SOC
范围,本专利中以插电式混合动力汽车为例,电池荷电状态
SOC
起始值设置为
0.8
,使用
PMP
算法,通过调整
PMP
算法中的控制参数“协调因子(
Co

state
)”,使电池荷电状态
SOC
轨迹控制在预先设定的起始值与终点值范围内,因而得到该城市工况下的最优电池荷电状态
SOC
轨迹,对该城市下多组工况进行离线优化,得到该城市下多组电池荷电状态
SOC
最优电池荷电状态
SOC
轨迹,将以上最优电池荷电状态
SOC
轨迹以归一化的行驶距离为
X
轴,电池荷电状态
SOC
值为
Z
轴,当前行驶的距离为
Y
轴进行图线绘制,由此得到最优电池荷电状态
SOC
轨迹分布本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Q

Learning
强化学习的状态空间缩减方法,其特征在于,该方法包括以下步骤:
P1
:状态参数的选取,选取电池荷电状态
SOC、
归一化路程
LD
以及当前行驶距离
DIS
为状态参数;
P2
:以步骤
P1
选择的三种状态参数为
X

、Y

、Z
轴,构造一个三维空间,并对该空间进行区间划分,将
X
轴的归一化路程
0~1
划分为
n
等份,
n
小于
100
;将
Z
轴的电池荷电状态 0~1
划分为
m
等份,
m
小于
100
;将
Y
轴的当前行驶距离划分为
i
等份,
i
小于
100
;沿
X

、Y

、Z
轴的等分点分别平行于坐标轴的直线将三维空间划分成由小的立方块构...

【专利技术属性】
技术研发人员:秦培皓郭洪强李志磊孟庆猛陈纪军
申请(专利权)人:聊城大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1