一种结合Q增强学习的实时模糊能源管理方法技术

技术编号:26598420 阅读:30 留言:0更新日期:2020-12-04 21:20
本发明专利技术公开一种结合Q增强学习的实时模糊能源管理方法,属于自动化技术领域。本发明专利技术提出的Q学习控制器通过车辆运行需求功率和超级电容荷电状态来采取行动,即无需提前知道驾驶模式。为了延长燃料电池的寿命并降低其能量消耗,通过遗传算法对Q值表的初始值进行了优化。此外,为了提高环境适应能力,改进了Q学习控制器的学习策略。仿真结果表明,在不同的驾驶条件下,可以减小燃料电池电流波动和能耗,同时超级电容器的荷电状态可以安全地维持在给定范围内。本发明专利技术提出的方法相比于神经网络路况识别的自适应模糊能源管理或优化的能源管理方法,融合了学习与规则,进一步改善了对不同驾驶条件的适应性,能同时降低燃料电池能耗和电流波动。

【技术实现步骤摘要】
一种结合Q增强学习的实时模糊能源管理方法
本专利技术属于自动化
,涉及一种基于Q增强学习算法和模糊控制的混合电动汽车实时能源管理策略。
技术介绍
为改善混合动力车的能源管理性能,现有的能源管理策略通常有两种:基于规则的能源管理策略和基于优化的能源管理策略。前者往往是确定性经验规则或模糊控制规则,而后者通常和先进控制理论及优化算法想结合。基于规则的能源管理策略计算量少易于实现,因此被广泛运用。但该策略较为单一,一般不具有工况自适应性,而且基于规则的策略通常是次优的,其性能在很大程度上取决于专家对规则设计的经验。基于优化的策略能够实现能源管理的最佳控制,需针对各种工况离线完成优化过程。在实时运行过程中则需要先行进行工况识别,再根据相应工况实施控制。实时工况识别过程本身十分复杂,需要特定的工况识别算法。
技术实现思路
本专利技术的目的是利用模糊规则能源管理策略的优势,采用Q增强学习算法进行复杂工况的信息反馈,从而无需工况识别,就能实现实时能源管理策略的工况自适应调整和性能优化。与基于车辆运行工况识别的能源管理方法不同,本专利本文档来自技高网...

【技术保护点】
1.一种基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,步骤如下:/nS1:构建模糊逻辑控制器,作为燃料电池和超级电容混合动力车的主控制器;所述模糊逻辑控制器以车辆需求功率P

【技术特征摘要】
1.一种基于自适应模糊Q增强学习的混合动力车辆运行实时能源管理方法,其特征在于,步骤如下:
S1:构建模糊逻辑控制器,作为燃料电池和超级电容混合动力车的主控制器;所述模糊逻辑控制器以车辆需求功率Pdem和超级电容的荷电状态SoC为输入,将其分别模糊化到模糊域后再通过解模糊,得到分配比例系数uf作为输出;
S2:构建Q增强学习补偿控制器,利用Q增强学习得到的动作对不同驾驶工况下的能源管理策略进行自适应补偿;在Q增强学习补偿控制器中,根据超级电容的SoC和车辆需求功率Pdem设计状态空间,根据燃料电池的输出功率PFC设计动作空间,根据超级电容的SoC状态设计奖励函数,Q增强学习补偿控制器的输出为对不同驾驶工况的补偿动作a;
S3:结合S1中构建的模糊逻辑控制器和S2中构建的Q增强学习补偿控制器,建立Q-Learning模糊能量管理系统,在该系统中能量管理策略为:
若车辆需求功率Pdem为正且超级电容的荷电状态SoC大于SoC阈值,则由Q-Learning模糊能量管理系统进行能量管理,基于输出的系数(uf+a)计算不同时刻的燃料电池的输出功率PFC:
PFC=(uf+a)Pdem
其中a是Q增强学习补偿控制器输出的补偿动作,uf+a≤1;
若超级电容的SoC低于SoC阈值,则燃料电池将在其功率范围内提供所有需求功率;
S4:获取车辆在不同工况下行驶的实时功率需求,在各种工况下对Q-Learning模糊能量管理系统进行离线训练,使其能对实时功率进行分配;
在离线训练Q-Learning模糊能量管理系统中的Q增强学习补偿控制器时,根据遗传算法对Q增强学习策略的Q值表进行初始值优化,具体过程为:
S41:初始化遗传算法的参数,包括最大进化代数G、种群大小N、交叉算子概率Pc和变异算子概率Pm及其权重系数ω,进化代数g初始化为1,当前时刻t初始化为1;同时随机生成N个Q值表个体;
S42:在车辆的一个行驶周期T中,对于每个Q值表个体,执行如下操作:
1)基于当前时刻状态st选择的动作at计算t+1时刻的状态st+1和奖励值rt+1,并利用Bellman公式更新t+1时刻的Q值Qt+1;在选择动作at时,在行驶周期T的前一部分时刻按照概率ξ随机选出动作at,其余的时刻根据确定动作at,将其添加到Q-Learning模糊能量管理系统输出中;
2)如果1)中得到的奖励值rt+1是表明SoC>SoCmax或SoC<SoCmin的值,则当前行驶周期T中的学习过程立即中止,否则使t=t+1后重复步骤1),直到行驶周期T结束;根据最终学习完成得到的Q值表,在Q-Learning模糊能量管理系统中计算目标函数J,其目标为在满足约束条件下,使得燃料电池的电流脉动最小且能耗最低;
S43:对N个Q值表个体执行赌轮盘选择和精英保留策略,以产生交叉和变异算子的父代;
S44:在执行S43后产生的N个后代中分别以概率Pc和Pm执行交叉操作和变异操作,更新Q值表个体,完成一代进化;
S45:不断重复执行步骤S42至S44,直到达到最大进化代数G,获得当前行驶周期T的Q值表;
S46:以S41至S45得到的Q值表为最优初始值,同时为克服按照概率ξ随机选出动作at的影响,不断迭代重复步骤S42,直到完成所有Np次迭代,得到Np个Q值表值;
S5:在Np个Q值表中,以行驶周期中燃料电池的能耗总和最低为标准,选出最优Q值表Qb;
S6:基于S5中的...

【专利技术属性】
技术研发人员:陶吉利胡业强白杨马龙华
申请(专利权)人:浙大宁波理工学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1