基于深度强化学习的混合动力车辆油门控制方法及系统技术方案

技术编号:25297736 阅读:75 留言:0更新日期:2020-08-18 22:15
本发明专利技术涉及一种基于深度强化学习的混合动力车辆油门控制方法及系统,包括:获取车辆上一时刻的状态量,记第一状态量;根据第一状态量采用深度神经网络确定当前时刻油门控制量,记第一油门控制量;深度神经网络中包括归一化优势函数;根据第一油门控制量控制车辆的油门;将第一油门控制量输入到车辆的动力学模型中,得当前时刻的状态量,记第二状态量;根据第一状态量、第一油门控制量和第二状态量确定数据段;直至获取T个连续时刻的数据段;根据各数据段对深度神经网络中的权值进行调节,得更新后的深度神经网络,采用更新后的深度神经网络确定当前时刻油门控制量,从而精确的对车辆油门进行控制,通过本发明专利技术的上述方法提高了对油门的精度控制。

【技术实现步骤摘要】
基于深度强化学习的混合动力车辆油门控制方法及系统
本专利技术涉及汽车油门控制
,特别是涉及一种基于深度强化学习的混合动力车辆油门控制方法及系统。
技术介绍
目前,针对混合动力汽车油门控制问题的主要解决方案有基于规则的方法和以动态规划、强化学习为代表的基于优化的方法。基于规则的方法需要提前知道工程师预设发动机及电池工作模式切换规则,因此对于复杂多变的路况缺乏适应性,难以实现混合动力车辆节能性及高机动性。基于深度强化学习的油门控制方法能有效学习道路工况信息,针对已获取道路信息通过神经网络的训练求得最优策略。但是传统深度强化学习训练中,常将已训练过数据片段储存于经验池中,在训练中随机提取进行再训练以打破数据相关性,随机提取历史经验片段使得训练时间较长且伴随有陷入局部最优解的风险,从而获取的控制量精度低。
技术实现思路
本专利技术的目的是提供一种基于深度强化学习的混合动力车辆油门控制方法及系统,提高油门控制精度。为实现上述目的,本专利技术提供了如下方案:一种基于深度强化学习的混合动力车辆油门控制方法,所述混合动本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述混合动力车辆油门控制方法包括:/nS1,获取车辆上一时刻的状态量,记为第一状态量;/nS2,根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数;/nS3,根据所述第一油门控制量控制车辆的油门;/nS4,获取车辆的动力学模型;/nS5,将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量;/nS6,根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;重复S1至S6直至获取T个连续时刻的数据段;/nS7,根据各所述数据段...

【技术特征摘要】
1.一种基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述混合动力车辆油门控制方法包括:
S1,获取车辆上一时刻的状态量,记为第一状态量;
S2,根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数;
S3,根据所述第一油门控制量控制车辆的油门;
S4,获取车辆的动力学模型;
S5,将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量;
S6,根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;重复S1至S6直至获取T个连续时刻的数据段;
S7,根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络;并返回S2,采用所述更新后的深度神经网络确定当前时刻油门控制量。


2.根据权利要求1所述的基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络,具体包括:
根据所述数据段获取所述数据段对应的取值概率;
根据所述取值概率确定数据段权值;
根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励;
根据所述奖励和所述数据段权值确定数据段损失;
根据所述数据段损失调节所述深度神经网络中的权值,得到更新后的深度神经网络。


3.根据权利要求2所述的基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励,具体包括:
根据公式确定数据段所对应的奖励;
其中,R(s,a)为车辆在状态量s下进行a动作所得的奖励,α,β均为正参数,为车辆发动机燃油消耗率,[t0,t]为车辆工作时间段,为t0时刻电池荷电状态变化率,为t时刻电池荷电状态变化率。


4.根据权利要求1所述的基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述归一化优势函数为:



其中,s为车辆状态量,a为油门控制量,μ为在状态量s下的最优动作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)为归一化优势函数,θA为归一化优势函数,θP为矩阵P的参数,θμ为μ的参数,L(·)为下三角矩阵。


5.一种基于深度强化学习的混合动力车辆油门控制系统,其特征在于,所...

【专利技术属性】
技术研发人员:邹渊张旭东孙逢春邹润楠
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1