一种基于神经网络和强化学习的混合能量管理方法技术

技术编号:29251719 阅读:38 留言:0更新日期:2021-07-13 17:21
本发明专利技术公开了一种基于神经网络和强化学习的混合能量管理方法,属于自动化技术领域。本发明专利技术采用模糊控制器的输出作为神经网络初始的离线数据集来进行训练,应用学习得到的神经网络产生新的数据加入至原有的数据集中,并反复更迭这两个过程。针对每个时刻的状态,采用训练之后的神经网络来预测当前状态在采取相应动作之后转移到的下一状态,根据累计奖励最大化的原则选择一定长度的最优动作序列,选取动作序列的第一个动作作为当前状态的最优控制动作。利用该方法可有效减少能量的浪费并且通过超级电容辅助锂电池供电,减少了锂电池的使用,达到了延长锂电池寿命的目标。

【技术实现步骤摘要】
一种基于神经网络和强化学习的混合能量管理方法
本专利技术属于自动化
,涉及一种基于神经网络和强化学习的锂电池和超级电容混合能量在线管理策略。
技术介绍
目前,强化学习算法一般可以分为两大类:无模型的方法和基于模型的方法,无模型方法的核心是学习一个策略或价值函数,而基于模型方法的核心是学习一个动态模型。尽管无模型的深度强化学习算法可以学习很多内容,例如在机器人领域,强化学习智能体可以学习不同类型的机器人技能。虽然学习的结果是很不错的,但这样的算法没有把数据高效地利用起来,需要极大规模的样本才能学习达到不错的效果,相当于是在无数次的试错过程中进行学习,并且通常一次只能学习一个任务,当任务改变时,需要重新进行相应的学习,因此这种方法难以在真实场景中大量地应用。在实际应用中,由于车辆在真实运行场景下会处于各种各样不同的驾驶工况,而无模型算法不够灵活,并且它们对样本的要求使得它们难以被用在真实场景下学习能量分配的策略。相比之下,基于模型的强化学习算法就具备了较大优势的样本高效性,它们能够在已有的样本基础上,结合模型进行快速的学习。在以往的研本文档来自技高网...

【技术保护点】
1.一种基于神经网络和强化学习的混合能量管理方法,用于对由锂电池和超级电容构成的混合能源系统进行功率分配控制,其特征在于:基于预先构建的神经网络,使用自适应模糊能量管理控制器的输出作为神经网络模型初始的离线训练数据,采用强化学习方法学习得到的神经网络用来产生新的数据以增加到原有的神经网络训练数据中继续进行神经网络的学习,不断更迭完成对神经网络的训练;利用训练完毕的神经网络预测当前状态在采取相应动作之后转移到的下一状态,根据累计奖励最大化的原则选择最优动作序列,选取动作序列的第一个动作作为当前状态的最优控制动作,得到锂电池和超级电容各自的输出功率。/n

【技术特征摘要】
1.一种基于神经网络和强化学习的混合能量管理方法,用于对由锂电池和超级电容构成的混合能源系统进行功率分配控制,其特征在于:基于预先构建的神经网络,使用自适应模糊能量管理控制器的输出作为神经网络模型初始的离线训练数据,采用强化学习方法学习得到的神经网络用来产生新的数据以增加到原有的神经网络训练数据中继续进行神经网络的学习,不断更迭完成对神经网络的训练;利用训练完毕的神经网络预测当前状态在采取相应动作之后转移到的下一状态,根据累计奖励最大化的原则选择最优动作序列,选取动作序列的第一个动作作为当前状态的最优控制动作,得到锂电池和超级电容各自的输出功率。


2.如权利要求1所述的基于神经网络和强化学习的混合能量管理方法,其特征在于,混合能量管理方法的具体步骤如下:
S1、利用双输入、单输出的自适应模糊控制能量管理控制器模拟控制车辆在不同驾驶工况下的锂电池输出比例,所述自适应模糊控制能量管理控制器以车辆运行所需功率Pdem和超级电容荷电状态USOC作为输入,以锂电池输出功率占总需求功率的比例为输出ub;
S2、基于自适应模糊控制能量管理控制器的模拟数据构建第一训练数据集Dinit,数据集中每个样本(st,at,st+1)由输入数据(st,at)和输出标签为下一时刻与当前时刻的荷电状态变化量st+1-st,其中st表示当前时刻t的车辆运行所需功率Pdemt和超级电容荷电状态USOCt,st+1表示下一时刻t+1的车辆运行所需功率Pdemt+1和超级电容荷电状态USOCt+1,at表示当前时刻t的锂电池输出功率占总需求功率的比例ubt;
S3、以第一训练数据集Dinit和初始为空集的第二训练数据集DRL作为神经网络模型的训练数据集D,训练得到以(st,at)为输入来预测st+1-st的预测模型
S4、基于最新的预测模型使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化的原则选出长度为H的最优动作序列执行该最优动作序列的第一个动作at,通过锂电池和超级电容的等效模型计算st在经过动作at之后的下一个时刻的状态st+1;在总长度为T的时段内不断迭代每个时刻,得到T个新的样本(st,at,st+1),将这T个新的样本更新到第二训练数据集DRL中,并使用更新后的训练数据集D再次训练神经网络模型得到更新后的预测模型;
S5、不断重复S4,直至预测模型达到收敛条件,得到最终预测模型;
S6、在每个时刻对混合能源系统进行功率分配控制时,基于所述最终预测模型,使用随机打靶法结合预设的奖励函数针对所有待选择动作序列计算累计奖励值,以累计奖励最大化...

【专利技术属性】
技术研发人员:陶吉利李央张靖妮马龙华
申请(专利权)人:浙大宁波理工学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1