基于数据驱动的无人车控制方法、装置和计算机设备制造方法及图纸

技术编号:30448186 阅读:15 留言:0更新日期:2021-10-24 18:42
本申请涉及一种基于数据驱动的无人车控制方法、装置和计算机设备。所述方法包括:通过表示无人车状态约束的障碍函数构建无人车安全相关的代价函数和控制策略结构,构造值函数网络,得到多步策略评估的参考代价函数;构造控制策略逼近网络,根据获取的多组数据对序列,得到值函数更新律和控制策略权值更新律,对无人车进行控制。本发明专利技术提出了一种基于障碍函数的控制策略可实现最优性和安全性的平衡,算法不需要模型信息,只需要事先采集数据对信息,同时,采用多步策略评估的方法对策略的安全性进行评估,可处理时变约束,可以边在线训练边部署,也可以先离线训练再部署。也可以先离线训练再部署。也可以先离线训练再部署。

【技术实现步骤摘要】
基于数据驱动的无人车控制方法、装置和计算机设备


[0001]本申请涉及无人车控制领域,特别是涉及一种基于数据驱动的无人车控制方法、装置和计算机设备。

技术介绍

[0002]随着无人车技术的发展,无人车在服务和工业等领域有了越来越多的应用。无人车的动力学是高度非线性的,而且多数无人车的控制需要考虑安全约束,例如无人车需要考虑安全避碰,机械手需要在受限工作区域工作。因此,在设计控制器时不仅要保证最优的控制性能还需要满足安全约束的要求。基于数值求解的模型预测控制能够满足上述控制要求,但需要在线实时求解,在线计算量大,很难实现高频率实时部署。目前比较流行的基于策略优化的方法例如强化学习方法,在计算效率方面具有明显的优势。但是强化学习需要通过试错实现策略优化,很难满足安全约束。因此,现有的无人车学习控制方法亟需解决安全性无法保证的问题。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种能够提高无人车控制安全性的基于数据驱动的无人车控制方法、装置、计算机设备和存储介质。
[0004]一种基于数据驱动的无人车控制方法,所述方法包括:离线获取多组数据对序列,每组所述数据对序列中包括个相邻时间序列的控制量和状态量;获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;在无人车控制过程中的任意时刻,根据预测时刻的所述代价函数的累加和预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的
控制策略权值更新律和控制策略逼近网络进行无人车的控制。
[0005]在其中一个实施例中,还包括:获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述代价函数为:其中,和是状态和控制变量,是离散时间指针,是时变约束集合,是连续函数,,,和是正定对称矩阵,是可调参数,是折扣因子,为所述障碍函数;所述控制策略结构为:其中表示所述预控制量,是一个新引入的变量, 是待优化的变量,表示为对变量的偏导,表示由状态约束的障碍函数产生的相斥力,当越靠近约束集合的边界,所述的值越大。
[0006]在其中一个实施例中,还包括:针对一个约束集合,障碍函数为:对所述障碍函数重新中心化,得到:其中,如果,,否则,选择。
[0007]在其中一个实施例中,还包括:根据所述障碍函数构造值函数网络;所述值函数网络为:其中,和是权值矩阵,是基函数向量,, 。
[0008]在其中一个实施例中,还包括:在无人车控制过程中的任意时刻,根据
预测时刻的所述代价函数的累加和预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:。
[0009]在其中一个实施例中,还包括:从所述多组数据对序列中随机选择组,得到数据对信息为:令, 可以得到:; 定义,
ꢀꢀ
,得到所述值函数权值矩阵的值函数更新律为:其中,,为预设的更新律。
[0010]在其中一个实施例中,还包括:根据所述预控制量和所述障碍函数构造控制策略逼近网络,所述控制策略逼近网络为:其中,,是权值矩阵,是基函数向量,,。
[0011]在其中一个实施例中,还包括:从所述多组数据对序列中随机选择组,得到数据对信息为:;根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值:得到所述控制策略权值矩阵的控制策略权值更新律为:
其中,,为预设的更新律。
[0012]一种基于数据驱动的无人车控制装置,所述装置包括:数据对序列获取模块,用于离线获取多组数据对序列,每组所述数据对序列中包括个相邻时间序列的控制量和状态量;代价函数和控制策略构建模块,用于获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;值函数网络构建模块,用于根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;参考代价函数构建模块,用于在无人车控制过程中的任意时刻,根据预测时刻的所述代价函数的累加和预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;值函数权值更新律确定模块,用于根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;控制策略逼近网络构建模块,用于根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;控制策略权值更新律确定模块,用于根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;无人车控制量确定模块,在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。
[0013]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:离线获取多组数据对序列,每组所述数据对序列中包括个相邻时间序列的控制量和状态量;获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;在无人车控制过程中的任意时刻,根据预测时刻的所述代价函数的累加和预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价
函数的值相等,得到所述值函数权值矩阵的值函数更新律;根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;根据所述多组数据对序列,根据所述数据对信息计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据驱动的无人车控制方法,其特征在于,所述方法包括:离线获取多组数据对序列,每组所述数据对序列中包括个相邻时间序列的控制量和状态量;在线训练时,在线获取无人车的状态约束信息,离线训练时,获取离线数据中无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述控制策略结构中还包括引入的预控制量;根据所述障碍函数构造值函数网络;所述值函数网络中包括值函数权值矩阵;在无人车控制过程中的任意时刻,根据预测时刻的所述代价函数的累加和预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;根据所述多组数据对序列,令每组数据对序列对应的值函数网络的值与参考代价函数的值相等,得到所述值函数权值矩阵的值函数更新律;根据所述预控制量和所述障碍函数构造控制策略逼近网络;所述控制策略逼近网络包括控制策略权值矩阵;根据所述多组数据对序列,计算所述控制策略逼近网络对控制策略的梯度的平均值,得到所述控制策略权值矩阵的控制策略权值更新律;所述控制量的期望值中包括时刻的值函数网络对时刻的状态量求偏导得到的值;在线训练在线部署时,根据每个时刻更新的控制策略权值更新律和控制策略逼近网络得到无人车在任意时刻的控制量,先离线训练后部署时,根据离线训练完成后得到的控制策略权值更新律和控制策略逼近网络进行无人车的控制。2.根据权利要求1所述的方法,其特征在于,获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构,包括:获取无人车的状态约束信息,根据所述状态约束信息得到障碍函数,根据所述障碍函数构建无人车安全相关的代价函数和控制策略结构;所述代价函数为:其中,和是状态和控制变量,是离散时间指针,是时变约束集合,是连续函数,,和是正定对称矩阵,是可调参数,是折扣因子,为所述障碍函数;所述控制策略结构为:其中表示所述预控制量,是一个新引入的变量, 是待优化的变
量,表示为对变量的偏导,表示由状态约束的障碍函数产生的相斥力,当越靠近约束集合的边界,所述的值越大。3.根据权利要求2所述的方法,其特征在于,所述障碍函数的定义为:针对一个约束集合,障碍函数为:对所述障碍函数重新中心化,得到:其中,如果,,否则,选择。4.根据权利要求3所述的方法,其特征在于,根据所述障碍函数构造值函数网络,包括:根据所述障碍函数构造值函数网络;所述值函数网络为:其中,和是权值矩阵,是基函数向量,, 。5.根据权利要求4所述的方法,其特征在于,在无人车控制过程中的任意时刻,根据预测时刻的所述代价函数的累加和预测时刻的所述值函数网络,得到多步策略评估的参考代价函数,包括:在无人车控制过程中的任意时刻,根据预测时刻的所述代价函数的累加和预测时刻的所述值函数网络,得到多步策略评估的参考代价函数;所述参考代价函数为:。6.根据权利要求...

【专利技术属性】
技术研发人员:蒋薇张兴龙彭耀仟徐昕
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1