一种基于A3C算法的混合动力系统能量管理方法技术方案

技术编号：26731048 阅读：47 留言：0更新日期：2020-12-15 14:32

本发明专利技术公开了一种基于A3C算法的混合动力系统能量管理方法，属于混合动力汽车能量管理领域，在保证汽车动力性的前提下，通过异步优势动作‑评价方法不仅可以解决Actor和Critic相关性问题，而且还可以解决经验回放池样本的相关性问题，可以实现在保证汽车燃油经济性的基础上，实现神经网络的快速收敛。本发明专利技术方法主要包括：建立A3C代理模型；设置A3C代理模型的状态、动作和回报，得到设置后的A3C代理模型；获取相关训练数据集，根据获得的相关训练数据集训练所述A3C代理模型得到训练后的A3C代理模型；使用训练后的A3C代理模型进行并联式混合动力车辆的能量管理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于A3C算法的混合动力系统能量管理方法
本专利技术属于混合动力汽车能量管理领域，尤其涉及一种基于A3C算法的混合动力系统能量管理方法。
技术介绍
能源是人类社会赖以生存和发展的重要物质基础。近几年，随着汽车工业的快速发展，能源短缺与环境污染问题越来越严重，能源在汽车上的使用也引起了社会各界的关注。为了更好的解决能源短缺与环境污染问题，混合动力汽车逐渐出现在现代市场上。一般来说，混合动力汽车由内燃机和电机两部分动力源组成，因此能量管理系统对于混合动力汽车而言必不可少。能量管理系统可以协同多个能量源的相互合作，以减少能源消耗与温室气体排放。但是，对于一个复杂的系统，开发一个高效的能量管理控制器去协同能源管理系统的工作是一项非常艰巨而具有挑战的任务。现如今，在HEV上应用的能量管理策略大致可以分为三类：基于规则的方法，基于优化的方法和基于学习的方法。基于规则的能量管理策略具有技术难度低、在线计算量小和实时性高的性能，故被广泛应用于混合动力汽车能量管理工业领域，但是相关规则的制订需要依靠专家经验完成，同样基于规则的控制...

【技术保护点】
1.一种基于A3C算法的混合动力系统能量管理方法，其特征在于，包括以下步骤：/n步骤1：建立A3C代理模型；/n步骤2：设置A3C代理模型的状态、动作和回报，得到设置后的A3C代理模型；/n步骤3：获取相关训练数据集，根据获得的相关训练数据集训练所述A3C代理模型得到训练后的A3C代理模型；/n步骤4：使用训练后的A3C代理模型进行混合动力车辆的能量管理。/n

【技术特征摘要】
1.一种基于A3C算法的混合动力系统能量管理方法，其特征在于，包括以下步骤：
步骤1：建立A3C代理模型；
步骤2：设置A3C代理模型的状态、动作和回报，得到设置后的A3C代理模型；
步骤3：获取相关训练数据集，根据获得的相关训练数据集训练所述A3C代理模型得到训练后的A3C代理模型；
步骤4：使用训练后的A3C代理模型进行混合动力车辆的能量管理。

2.根据权利要求1所述的基于A3C算法的混合动力系统能量管理方法，其特征在于，步骤1中所述A3C代理模型包括：全局神经网络与局部神经网络，所述局部神经网络负责与环境进行交互，并且计算累计损失梯度，并将累计损失梯度传递给全局神经网络，所述全局神经网络负责参数更新，在全局神经网络参数更新完成后，局部神经网络同步全局神经网络的参数。

3.根据权利要求2所述的基于A3C算法的混合动力系统能量管理方法，其特征在于，所述全局神经网络与局部神经网络的神经网络结构一样，都包含Actor网络与Critic网络。

4.根据权利要求1所述的基于A3C算法的混合动力系统能量管理方法，其特征在于，步骤2中所述状态量为：汽车车速v，汽车加速度a和动力电池SOC，状态变量向量为s＝{v,a,SOC}T；发动机转矩Te为动作变量，动作变量向量为a＝{Te}T；奖励函数被用于评价在当前状态st下执行动作at的表现性能，奖励函数定义为成本函数的负值，奖励函数如公式(1)所示：
r＝-{fuel(t)+α[SOCref-SOC(t)]2}(1)
其中，fuel(t)为当前时刻下汽车的燃油消耗，SOCref为期望SOC的参考值，SOC(t)为当前时刻电池SOC值，α为电池充电维持的权重。

5.根据权利要求1所述的基于A3C算法的混合动力系统能量管理方法，其特征在于，步骤3具体包括以下步骤：
步骤A：初始化所述设定后的A3C代理模型得到初始化后的A3C代理模型；
步骤B：将初始化后的A3C代理模型与混的动力汽车进行交互，得到训练数据集；
步骤C：根据所述训练数据集对A3C代理模型进行训练，最终得到训练后的A3C代理模型。

6.根据权利要求5所述的基于A3C算法的混合动力系统能量管理方法，其特征在于，步骤A具体包括：分别初始化所述设定后的A3C代理模型中的全局神经网络参数与局部神经网络参数，其中全局神经网络中的Actor网络与Critic网络参数分别用θ和ω表示；局部神经网络中的Actor网络与Critic网络参数分别用θ′和ω′表示，累计梯度dθ←0和dω←0，最终得到初始化后的A3C代理模型。

7.根据权利要求5所述的基于A3C...

【专利技术属性】
技术研发人员：周健豪，薛源，薛四伍，廖宇晖，刘军，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人