车辆的控制方案生成方法、装置、存储介质和电子设备制造方法及图纸

技术编号:20725250 阅读:23 留言:0更新日期:2019-03-30 17:46
本公开涉及一种车辆的控制方案生成方法、装置、存储介质和电子设备,该方法包括:通过车辆的预设行驶状态模型和HJB函数建立包括两个回声状态网的自适应动态规划算法模型;循环执行根据上述两个回声状态网输出的代价函数和控制策略,以及利用该HJB函数获取到的近似误差,对上述两个回声状态网的输出权值进行更新的步骤,直至获取能够使该近似误差最小化的目标控制策略输出权值;将该车辆当前的行驶状态模型作为具备该目标控制策略输出权值的回声状态网的输入,得到目标控制策略,作为车辆的控制方案。通过经过更新的回声状态网获取自动驾驶所需的控制策略,减少控制策略生成过程中的计算量和复杂度,增强自适应动态规划算法的实际应用能力。

【技术实现步骤摘要】
车辆的控制方案生成方法、装置、存储介质和电子设备
本公开涉及自动驾驶领域,具体地,涉及一种车辆的控制方案生成方法、装置、存储介质和电子设备。
技术介绍
随着V2X(VehicletoEverything,车对外界的信息交换)车联网技术的推广应用,在现代交通系统中,车辆对周围环境的感知能力大幅提升。V2X技术可以提供给车辆精准的位置、速度和加速度等信息。利用V2X技术可以预见性地判断车辆环境,从而提前计算车辆的最优控制策略,对车辆的自动控制提供帮助。最优控制策略是考虑车辆运行过程中的综合因素,包括最短路径、最快时间和最少能耗,通过这些综合因素可以建立相应的控制指标,并通过最小化控制指标从而获取最优控制策略,进而实现既保证车辆安全,又节能减排的目的。相关技术中,可以根据车辆实际运动情况对车辆进行建模,其中,车辆的行驶状态模型中的行驶参数为根据车辆实际运行情况确定的车辆行驶信息,基于该模型的控制算法可以为车辆提供精准的实时控制。然而,根据实际情况建立的行驶状态模型具有一定的非线性特性,导致其在控制过程中比线性系统更加复杂。在求解非线性系统的最优控制策略时,系统方程的非线性特性导致其解析解很难被得到。
技术实现思路
为克服相关技术中存在的问题,本公开的目的是提供一种车辆的控制方案生成方法、装置、存储介质和电子设备。为了实现上述目的,根据本公开实施例的第一方面,提供一种车辆的控制方案生成方法,所述方法包括:通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型,所述自适应动态规划算法模型包括第一回声状态网与第二回声状态网,所述第一回声状态网用于生成控制车辆所需的目标代价函数,所述第二回声状态网用于生成控制车辆所需的目标控制策略;循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略,以及利用所述HJB函数获取到的近似误差,对所述第一回声状态网的代价函数输出权值以及所述第二回声状态网的控制策略输出权值进行更新的步骤,直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值;在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后,获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入,以得到所述第二回声状态网输出的所述目标控制策略,作为车辆在当前时刻的控制方案。可选的,所述通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型,包括:根据代价函数近似方程,建立所述第一回声状态网,所述代价函数近似方程为以所述预设行驶状态模型为变量,以随机生成的第一储备池矩阵与第一输入权值以及预先设定的第一储备池状态、第一储备池泄漏率与第一代价函数输出权值作为参数的方程;根据控制策略近似方程,建立所述第二回声状态网,所述控制策略近似方程为以所述预设行驶状态模型作为变量,以随机生成的第二储备池矩阵与第二输入权值以及预先设定的第二储备池状态、第二储备池泄漏率与第一控制策略输出权值作为参数的方程;根据所述第一回声状态网、所述第二回声状态网以及所述HJB函数创建所述自适应动态规划算法模型,其中所述第一回声状态网和所述第二回声状态网的输出作为所述HJB函数的输入。可选的,所述循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略,以及利用所述HJB函数获取到的近似误差,对所述代价函数输出权值以及所述控制策略输出权值进行更新的步骤,直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值,包括:将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入,以获取所述第一回声状态网输出的第一代价函数,以及所述第二回声状态网输出的第一控制策略,所述预设行驶状态模型为根据所述车辆在历史时刻的行驶参数建立的行驶状态模型,所述行驶参数包括相对距离、空气阻力、质量系数、摩擦力以及推动力,所述历史时刻为所述当前时刻之前的一个或多个时刻,所述相对距离为所述车辆与目标位置的距离;将所述第一代价函数和所述第一控制策略作为所述HJB函数的输入,以获取所述HJB函数输出的所述近似误差;通过预设的数值转换方法,将所述近似误差限定为非负的误差绝对值;将所述第一回声状态网当前的代价函数输出权值、所述误差绝对值以及预设的第一更新率作为预设的梯度下降方程的输入,以获取所述梯度下降方程输出的所述第一回声状态网的更新后的代价函数输出权值;将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值、预设的第二更新率以及作为所述梯度下降方程的输入,以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值;当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值小于或等于预设的计算精度时,将所述更新后的控制策略输出权值作为所述目标控制策略输出权值;或者,当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值大于所述计算精度时,将所述更新后的代价函数输出权值作为所述第一回声状态网当前的代价函数输出权值,并将所述更新后的控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值,重复执行从所述将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入,以获取所述第一回声状态网输出的第一代价函数,以及所述第二回声状态网输出的第一控制策略,到所述将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值、预设的第二更新率以及作为所述梯度下降方程的输入,以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值,直至所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值小于或等于预设的计算精度。可选的,所述在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后,获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入,以得到所述第二回声状态网输出的所述目标控制策略,作为车辆在当前时刻的控制方案,包括:将所述目标控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值;通过所述车辆在当前时刻的行驶参数,建立所述目标行驶状态模型,所述当前时刻的行驶参数包括所述当前时刻的相对距离、空气阻力、质量系数、摩擦力以及推动力;将所述目标行驶状态模型作为所述第二回声状态网的输入,以获取所述第二回声状态网输出的所述目标控制策略,作为所述车辆在所述当前时刻的控制方案。根据本公开实施例的第二方面,提供一种车辆的控制方案生成装置,所述装置包括:模型建立模块,用于通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型,所述自适应动态规划算法模型包括第一回声状态网与第二回声状态网,所述第一回声状态网用于生成控制车辆所需的目标代价函数,所述第二回声状态网用于生成控制车辆所需的目标控制策略;权值更新模块,用于循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略,以及利用所述HJB函数获取到的近似误差,对所述第一回声状态网的代价函数输出权值以及所述第二回声状态网的控制策略输出权值进行更新的步骤,直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值;方案确定模块,用于在将所述目标控制策略输出本文档来自技高网...

【技术保护点】
1.一种车辆的控制方案生成方法,其特征在于,所述方法包括:通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型,所述自适应动态规划算法模型包括第一回声状态网与第二回声状态网,所述第一回声状态网用于生成控制车辆所需的目标代价函数,所述第二回声状态网用于生成控制车辆所需的目标控制策略;循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略,以及利用所述HJB函数获取到的近似误差,对所述第一回声状态网的代价函数输出权值以及所述第二回声状态网的控制策略输出权值进行更新的步骤,直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值;在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后,获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入,以得到所述第二回声状态网输出的所述目标控制策略,作为车辆在当前时刻的控制方案。

【技术特征摘要】
1.一种车辆的控制方案生成方法,其特征在于,所述方法包括:通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型,所述自适应动态规划算法模型包括第一回声状态网与第二回声状态网,所述第一回声状态网用于生成控制车辆所需的目标代价函数,所述第二回声状态网用于生成控制车辆所需的目标控制策略;循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略,以及利用所述HJB函数获取到的近似误差,对所述第一回声状态网的代价函数输出权值以及所述第二回声状态网的控制策略输出权值进行更新的步骤,直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值;在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后,获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入,以得到所述第二回声状态网输出的所述目标控制策略,作为车辆在当前时刻的控制方案。2.根据权利要求1所述的方法,其特征在于,所述通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型,包括:根据代价函数近似方程,建立所述第一回声状态网,所述代价函数近似方程为以所述预设行驶状态模型为变量,以随机生成的第一储备池矩阵与第一输入权值以及预先设定的第一储备池状态、第一储备池泄漏率与第一代价函数输出权值作为参数的方程;根据控制策略近似方程,建立所述第二回声状态网,所述控制策略近似方程为以所述预设行驶状态模型作为变量,以随机生成的第二储备池矩阵与第二输入权值以及预先设定的第二储备池状态、第二储备池泄漏率与第一控制策略输出权值作为参数的方程;根据所述第一回声状态网、所述第二回声状态网以及所述HJB函数创建所述自适应动态规划算法模型,其中所述第一回声状态网和所述第二回声状态网的输出作为所述HJB函数的输入。3.根据权利要求1所述的方法,其特征在于,所述循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略,以及利用所述HJB函数获取到的近似误差,对所述代价函数输出权值以及所述控制策略输出权值进行更新的步骤,直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值,包括:将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入,以获取所述第一回声状态网输出的第一代价函数,以及所述第二回声状态网输出的第一控制策略,所述预设行驶状态模型为根据所述车辆在历史时刻的行驶参数建立的行驶状态模型,所述行驶参数包括相对距离、空气阻力、质量系数、摩擦力以及推动力,所述历史时刻为所述当前时刻之前的一个或多个时刻,所述相对距离为所述车辆与目标位置的距离;将所述第一代价函数和所述第一控制策略作为所述HJB函数的输入,以获取所述HJB函数输出的所述近似误差;通过预设的数值转换方法,将所述近似误差限定为非负的误差绝对值;将所述第一回声状态网当前的代价函数输出权值、所述误差绝对值以及预设的第一更新率作为预设的梯度下降方程的输入,以获取所述梯度下降方程输出的所述第一回声状态网的更新后的代价函数输出权值;将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值、预设的第二更新率以及作为所述梯度下降方程的输入,以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值;当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值小于或等于预设的计算精度时,将所述更新后的控制策略输出权值作为所述目标控制策略输出权值;或者,当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值大于所述计算精度时,将所述更新后的代价函数输出权值作为所述第一回声状态网当前的代价函数输出权值,并将所述更新后的控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值,重复执行从所述将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入,以获取所述第一回声状态网输出的第一代价函数,以及所述第二回声状态网输出的第一控制策略,到所述将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值、预设的第二更新率以及作为所述梯度下降方程的输入,以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值,直至所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值小于或等于预设的计算精度。4.根据权利要求1所述的方法,其特征在于,所述在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后,获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入,以得到所述第二回声状态网输出的所述目标控制策略,作为车辆在当前时刻的控制方案,包括:将所述目标控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值;通过所述车辆在当前时刻的行驶参数,建立所述目标行驶状态模型,所述当前时刻的行驶参数包括所述当前时刻的相对距离、空气阻力、质量系数、摩擦力以及推动力;将所述目标行驶状态模型作为所述第二回声状态网的输入,以获取所述第二回声状态网输出的所述目标控制策略,作为所述车辆在所述当前时刻的控制方案。5.一种车辆的控制方案生成装置,其特征在于,所述装置包括:模型建立模...

【专利技术属性】
技术研发人员:孟扬刘冲张骞刘帅杨明
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1