当前位置: 首页 > 专利查询>清华大学专利>正文

智能网联混合动力汽车的鲁棒能量管理方法及系统技术方案

技术编号:27672016 阅读:20 留言:0更新日期:2021-03-17 02:06
本发明专利技术提供智能网联混合动力汽车的鲁棒能量管理方法及系统,包括:获取基于人机协同的节能驾驶决策和基于智能网联的全局和实时工况更新;基于所述节能驾驶决策和所述全局和实时工况更新,执行基于深度强化学习的能量管理策略;对所述基于深度强化学习的能量管理策略采用策略鲁棒性修正,得到修正后的鲁棒控制策略;将所述修正后的鲁棒控制策略应用于混合动力汽车,得到所述混合动力汽车的能量分配结果。本发明专利技术提出的智能网联混合动力汽车的鲁棒能量管理方法,有效解决了深度强化学习能量管理策略的鲁棒性问题,并提升了网联环境下混合动力汽车的节能效果,具有较好的工程应用价值。

【技术实现步骤摘要】
智能网联混合动力汽车的鲁棒能量管理方法及系统
本专利技术涉及汽车动力
,尤其涉及智能网联混合动力汽车的鲁棒能量管理方法及系统。
技术介绍
近年来,基于深度强化学习的混合动力能量管理策略获得了广泛研究,并与基于规则和最优控制理论的策略进行对比,证明了其优越性。该策略通过大量训练,并结合智能网联信息,能够实现较优的燃油经济性和排放性能。基于深度强化学习的混合动力能量管理策略,目前仍停留在理论阶段,主要原因在于鲁棒性问题。由于实际工况的复杂性和不确定性,离线标定和训练过程难以体现全部真实工况;同时,训练模型中存在未建模的动态特征,因此其实际控制过程中往往存在导致电池过充、过放电,造成系统崩溃的现象,因此尚不具备工业应用的可行性。如何保证深度强化学习能量管理策略的系统鲁棒性,是该研究领域亟待突破的核心技术。
技术实现思路
本专利技术提供智能网联混合动力汽车的鲁棒能量管理方法及系统,用以解决现有技术中存在的缺陷。第一方面,本专利技术提供智能网联混合动力汽车的鲁棒能量管理方法,包括:获取基于人机协同的节能驾驶决策和基于智能网联的全局和实时工况更新;基于所述节能驾驶决策和所述全局和实时工况更新,执行基于深度强化学习的能量管理策略;对所述基于深度强化学习的能量管理策略采用策略鲁棒性修正,得到修正后的鲁棒控制策略;将所述修正后的鲁棒控制策略应用于混合动力汽车,得到所述混合动力汽车的能量分配结果。进一步地,所述获取基于人机协同的节能驾驶决策和基于智能网联的全局和实时工况更新,具体包括:获取驾驶员驾驶意图,根据所述驾驶员驾驶意图判断开启的驾驶模式,由所述驾驶模式获取速度需求和转矩需求,基于所述速度需求和所述转矩需求得到车辆速度给定和车辆加速度给定;基于智能网联数据,预测车辆从出发地到目的地的全程工况以及短期实时工况;采用动态规划算法求解所述全程工况的最优SOC参考轨迹,并采用滚动时域定时更新所述最优SOC参考轨迹;将所述短期实时工况采用0和1的逻辑进行描述,0代表前方路况拥堵,1代表前方路况畅通。将定时更新的SOC参考轨迹以及定时更新的短期实时工况输出给所述基于深度强化学习的能量管理策略。进一步地,所述基于所述节能驾驶决策和所述全局和实时工况更新,执行基于深度强化学习的能量管理策略,具体包括:获取所述车辆速度给定、所述车辆加速度给定、所述定时更新的SOC参考轨迹、所述定时更新的短期实时工况、SOC实际值反馈和发动机工作点与高效区的偏离程度;将所述车辆速度给定、所述车辆加速度给定、所述短期实时工况、所述SOC参考轨迹与SOC实际值反馈的差值以及所述发动机工作点与高效区的偏离程度作为状态变量;将发动机输出功率给定作为动作变量;将第一预设倍数的燃油消耗量加上第二预设倍数的所述SOC参考轨迹和SOC实际值反馈的差值的平方,作为奖励函数;基于所述状态变量、所述动作变量和所述奖励函数对深度Q网络模型进行训练,获得所述基于深度强化学习的能量管理策略。进一步地,所述对所述基于深度强化学习的能量管理策略采用策略鲁棒性修正,得到修正后的鲁棒控制策略,具体包括:采用基于模型预测的策略鲁棒性修正方法,并基于动力电池组SOP估计得到的发动机功率约束条件,对所述基于深度强化学习的能量管理策略进行修正,其中,所述基于模型预测的策略鲁棒性修正方法包括在神经网络外部进行修正,或在神经网络内部进行修正;或基于强化学习的策略鲁棒性修正方法,对所述基于深度强化学习的能量管理策略进行修正。进一步地,所述在神经网络外部进行修正,具体包括:若判断获知所述鲁棒能量管理策略满足所述发动机功率约束条件,则直接输出所述鲁棒能量管理策略;若判断获知所述鲁棒能量管理策略不满足所述发动机功率约束条件,则进行约束条件边界判断,当所述鲁棒能量管理策略给出的发动机输出功率超过所述发动机功率约束条件的上边界,则取值为所述上边界,否则取值为所述发动机功率约束条件的下边界。进一步地,所述在神经网络内部进行修正,具体包括:在深度Q网络模型的隐藏层之后,输出层Softmax之前的位置加入Deactivation约束矩阵;基于所述发动机功率约束条件,实时更新所述Deactivation约束矩阵,将神经网络中的部分神经元失活,从而将不满足所述发动机功率约束条件的发动机功率输出动作进行剔除。进一步地,所述动力电池组SOP估计,具体包括:获取采用预设数量的RC元件串联欧姆电阻的等效电路模型;基于所述等效电路模型获得预设时间段内的电池充电电压、电池放电电压、极限充电电流和极限放电电流;由所述电池充电电压乘以所述极限充电电流得到最大充电功率,由所述电池放电电压乘以所述极限放电电流得到最大放电功率。进一步地,所述基于强化学习的策略鲁棒性修正方法,对所述基于深度强化学习的能量管理策略进行修正,具体包括:基于有限状态机方法,获取若干车辆能量管理模式,制定基于逻辑规则的能量管理方法,得到基于有限状态机的规则逻辑策略;将基于深度强化学习的智能控制策略与所述基于有限状态机的规则逻辑策略进行结合,采用Q学习的方法进行两种策略的切换。第二方面,本专利技术还提供智能网联混合动力汽车的鲁棒能量管理系统,包括:获取模块,用于获取基于人机协同的节能驾驶决策和基于智能网联的全局和实时工况更新;策略模块,用于基于所述节能驾驶决策和所述全局和实时工况更新,执行基于深度强化学习的能量管理策略;修正模块,用于对所述基于深度强化学习的能量管理策略采用策略鲁棒性修正,得到修正后的鲁棒控制策略;分配模块,用于将所述修正后的鲁棒控制策略应用于混合动力汽车,得到所述混合动力汽车的能量分配结果。第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述智能网联混合动力汽车的鲁棒能量管理方法的步骤。第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述智能网联混合动力汽车的鲁棒能量管理方法的步骤。本专利技术提供的智能网联混合动力汽车的鲁棒能量管理方法及系统,通过提出的智能网联混合动力汽车的鲁棒能量管理方法,有效解决了深度强化学习能量管理策略的鲁棒性问题,并提升了网联环境下混合动力汽车的节能效果,具有较好的工程应用价值。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的智能网联混合动力汽车的鲁棒能量管理方法的流程示意图;图2是本专利技术提供的系统整体框架示意图;图3是本专利技术提供的本文档来自技高网...

【技术保护点】
1.智能网联混合动力汽车的鲁棒能量管理方法,其特征在于,包括:/n获取基于人机协同的节能驾驶决策和基于智能网联的全局和实时工况更新;/n基于所述节能驾驶决策和所述全局和实时工况更新,执行基于深度强化学习的能量管理策略;/n对所述基于深度强化学习的能量管理策略采用策略鲁棒性修正,得到修正后的鲁棒控制策略;/n将所述修正后的鲁棒控制策略应用于混合动力汽车,得到所述混合动力汽车的能量分配结果。/n

【技术特征摘要】
1.智能网联混合动力汽车的鲁棒能量管理方法,其特征在于,包括:
获取基于人机协同的节能驾驶决策和基于智能网联的全局和实时工况更新;
基于所述节能驾驶决策和所述全局和实时工况更新,执行基于深度强化学习的能量管理策略;
对所述基于深度强化学习的能量管理策略采用策略鲁棒性修正,得到修正后的鲁棒控制策略;
将所述修正后的鲁棒控制策略应用于混合动力汽车,得到所述混合动力汽车的能量分配结果。


2.根据权利要求1所述的智能网联混合动力汽车的鲁棒能量管理方法,其特征在于,所述获取基于人机协同的节能驾驶决策和基于智能网联的全局和实时工况更新,具体包括:
获取驾驶员驾驶意图,根据所述驾驶员驾驶意图判断开启的驾驶模式,由所述驾驶模式获取速度需求和转矩需求,基于所述速度需求和所述转矩需求得到车辆速度给定和车辆加速度给定;
基于智能网联数据,预测车辆从出发地到目的地的全程工况以及短期实时工况;采用动态规划算法求解所述全程工况的最优SOC参考轨迹,并采用滚动时域定时更新所述最优SOC参考轨迹;将所述短期实时工况采用0和1的逻辑进行描述,0代表前方路况拥堵,1代表前方路况畅通,将定时更新的SOC参考轨迹以及定时更新的短期实时工况输出给所述基于深度强化学习的能量管理策略。


3.根据权利要求2所述的智能网联混合动力汽车的鲁棒能量管理方法,其特征在于,所述基于所述节能驾驶决策和所述全局和实时工况更新,执行基于深度强化学习的能量管理策略,具体包括:
获取所述车辆速度给定、所述车辆加速度给定、所述定时更新的SOC参考轨迹、所述定时更新的短期实时工况、SOC实际值反馈和发动机工作点与高效区的偏离程度;
将所述车辆速度给定、所述车辆加速度给定、所述短期实时工况、所述SOC参考轨迹与SOC实际值反馈的差值以及所述发动机工作点与高效区的偏离程度作为状态变量;
将发动机输出功率给定作为动作变量;
将第一预设倍数的燃油消耗量加上第二预设倍数的所述SOC参考轨迹和SOC实际值反馈的差值的平方,作为奖励函数;
基于所述状态变量、所述动作变量和所述奖励函数对深度Q网络模型进行训练,获得所述基于深度强化学习的能量管理策略。


4.根据权利要求1所述的智能网联混合动力汽车的鲁棒能量管理方法,其特征在于,所述对所述基于深度强化学习的能量管理策略采用策略鲁棒性修正,得到修正后的鲁棒控制策略,具体包括:
采用基于模型预测的策略鲁棒性修正方法,并基于动力电池组SOP估计得到的发动机功率约束条件,对所述基于深度强化学习的能量管理策略进行修正,其中,所述基于模型预测的策略鲁棒性修正方法包括在神...

【专利技术属性】
技术研发人员:王志张昊范钦灏刘尚王巍
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1