优化决策规控的方法、控制车辆行驶的方法和相关装置制造方法及图纸

技术编号:30493065 阅读:15 留言:0更新日期:2021-10-27 22:22
本申请提供了人工智能的自动驾驶领域中的优化决策规控的方法、基于决策控制系统控制车辆行驶的方法和相关装置。本申请优化决策规控的方法中:获取第一行驶序列,第一行驶序列中包括车辆在第一环境信息中的第一轨迹序列和决策控制系统的行为决策层基于第一环境信息输出的第一目标驾驶行为;获取第二行驶序列,第二行驶序列中包括决策控制系统的运动规划层基于预设的第二目标驾驶行为输出的第二轨迹序列和该第二目标驾驶行为;根据第一行驶序列与预设的行驶序列的差异优化行为决策层,根据第二行驶序列与该预设的行驶序列的差异优化运动规划层。本申请的技术方案可以实现行为决策层和运动规划层的闭环优化,从而有利于保证车辆的正常行驶。保证车辆的正常行驶。保证车辆的正常行驶。

【技术实现步骤摘要】
优化决策规控的方法、控制车辆行驶的方法和相关装置


[0001]本申请涉及自动驾驶领域,更具体地,涉及优化优化决策规控的方法、基于决策控制系统控制车辆行驶的方法和相关装置。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]自动驾驶是人工智能领域的一种主流应用。自动驾驶技术依靠计算机视觉、雷达、监控装置和全球定位系统等协同合作,让机动车辆可以在不需要人类主动操作下,实现自动驾驶。自动驾驶的车辆使用各种计算系统来帮助将乘客从一个位置运输到另一位置。一些自动驾驶车辆可能要求来自操作者(诸如,领航员、驾驶员或者乘客)的一些初始输入或者连续输入。自动驾驶车辆准许操作者从手动模操作式切换到自东驾驶模式或者介于两者之间的模式。由于自动驾驶技术无需人类来驾驶机动车辆,所以理论上能够有效避免人类的驾驶失误,减少交通事故的发生,且能够提高公路的运输效率。因此,自动驾驶技术越来越受到重视。
[0004]自动驾驶技术中提出了一种采用自动驾驶决策控制系统来实现自动驾驶的方法。自动驾驶决策控制系统采用分层架构,主要包括行为决策层和运动规划层。其中,行为决策层在接收到为自动驾驶车辆规划的全局路径之后,可以结合自动驾驶车辆的感知模块获取的环境信息(例如,其他车辆的信息、行人的信息、障碍物的信息、道路交通规则信息),作出具体的行为决策(例如,变道超车或继续跟随前车);运动规划层可以根据行为决策层作出的行为决策,规划满足特定约束条件(例如,车辆自身的动力学约束条件、避免碰撞或乘客舒适性)的轨迹,该轨迹作为自动驾驶车辆的控制模块的输入决定自动驾驶车辆的最终行驶路径。
[0005]现有技术中,在运动规划层接收到行为决策层输出的行为决策之后,可以对该行为决策进行评估,并给出反馈信息,反馈信息的示例包括速度过快或过慢、无法执行决策命令、所需转向输入过大、基于道路状况决策命令不安全等等,然后行为决策层基于该反馈信息修正输出的行为决策,以提高车辆的安全性。
[0006]上述方法虽然在一定程度上提高了车辆的行驶安全性,但是,由于车辆的安全问题是车辆行驶的首要问题,因此,还需进一步提高车辆的行驶安全性。也就是说,如何进一步提高自动驾驶决策控制系统的车辆的行驶安全性是亟待解决的技术问题。

技术实现思路

[0007]本申请提供优化决策规控的方法、基于决策控制系统控制车辆行驶的方法和相关装置,可以实现决策控制系统中的行为决策层和运动规划层的闭环优化,从而有助于提高决策控制系统的性能,从而有利于保证车辆的行驶安全性。
[0008]第一方面,本申请提供一种优化决策规控的方法。所述方法应用在决策控制系统中,所述决策控制系统包括行为决策层和运动规划层,所述方法包括:获取第一轨迹序列,所述第一轨迹序列中包括车辆在第一环境中的轨迹信息;获取所述行为决策层基于所述第一环境的信息输出的第一目标驾驶行为信息;对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合,得到第一行驶序列;获取所述运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列;对所述第二轨迹序列和所述第二目标驾驶行驶信息进行融合,得到第二行驶序列;根据所述第一行驶序列与预设的目标示教行驶序列之间的差异,对所述行为决策层进行优化,所述目标示教行驶序列中包括示教轨迹序列和示教驾驶行为信息;根据所述第二行驶序列与所述目标示教行驶序列之间的差异,对所述运动规划层进行优化。
[0009]上述方法中,根据行为决策层输出的行为构成的序列和运动规划层输出的轨迹序列构成的序列与同一个示教许可之间的差异来优化整行为决策层,以使得行为决策层输出的行为所构成的行驶序列和运动规划层输出的轨迹序列所构成的行驶序列同时趋向于同一个示教行驶序列,从而使得优化后的行为决策层输出的行为不仅在行为决策层是最优的行为,而且运动规划层基于该行为输出的轨迹序列也可以是最优的。这种优化方法可以大幅提高自动驾驶决策系统的决策规控性能,最终提高车辆的安全性。
[0010]此外,不仅对行为决策层进行优化,还对运动规划层进行优化。这样,可以实现自动驾驶决策控制系统中的行为决策层和运动规划层的闭环优化,从而可以进一步提升行为决策层和运动规划层的性能,进而可以进一步提升自动驾驶决策控制系统的性能,最终提高提高车辆的安全性。
[0011]在一些可能的实现方式中,所述根据所述第一行驶序列与目标示教行驶序列之间的差异,对所述行为决策层进行优化,包括:获取判别模型输入所述第一行驶序列时的第一输出,所述判别模型用于判断输入的行驶序列是否为示教行驶序列,并根据所述第一输出对所述行为决策层进行优化;所述根据所述第二行驶序列与所述目标示教行驶序列之间的差异,对所述运动规划层进行优化,包括:获取所述判别模型输入所述第二行驶序列时输出的第二输出,并根据所述第二输出对所述运动规划层进行优化;所述方法还包括:获取所述判别模型输出所述目标示教行驶序列时的第三输出;根据所述第一输出、所述第二输出和所述第三输出,优化所述判别模型。
[0012]该实现方式中,使用判别模型对第一行驶序列、第二行驶序列和目标示教行驶序列进行判别,分别得到第一输出、第二输出和第三输出。因为第一行驶序列与目标示教行驶序列之间的差异可以通过第一输出表示,所以,基于第一输出来对行为决策层进行优化,以使得第一输出越来越趋向于第三输出,可以使得行为决策层学习到目标示教行驶序列中的轨迹序列对应相应驾驶行为的知识,从而可以使得优化后的行为决策层可以输出合理的驾驶行为。
[0013]因为第二行驶序列与目标示教行驶序列之间的差异可以通过第二输出表示,所
以,基于第二输出来对运动规划层进行优化,以使得第二输出越来越趋向于第三输出,可以使得运动规划层学习到目标示教行驶序列中的驾驶行为对应相应轨迹序列的知识,从而可以使得优化后的运动规划层可以输出合理的轨迹序列。
[0014]这种闭环联合优化的方式,可以使得行为决策层和运动规划层同时得到优化,从而可以提高自动驾驶策略控制系统的鲁棒性,最终可以提高车辆的安全性。
[0015]在一些可能的实现方式中,所述根据所述第二输出对所述运动规划层进行优化,包括:使用策略优化法,基于所述第二输出,对所述运动规划层进行优化。
[0016]例如,可以通过信任域策略优化算法,基于第二输出来优化运动规划层。
[0017]在一些可能的实现方式中,所述根据所述第一输出对所述行为决策层进行优化,包括:获取第一函数的梯度,并使用梯度下降法根据所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化决策规控的方法,其特征在于,应用在决策控制系统,所述决策控制系统包括行为决策层和运动规划层,所述方法包括:获取第一轨迹序列,所述第一轨迹序列中包括车辆在第一环境中的轨迹信息;获取所述行为决策层基于所述第一环境的信息输出的第一目标驾驶行为信息;对所述第一轨迹序列和所述第一目标驾驶行为信息进行融合,得到第一行驶序列;获取所述运动规划层基于预设的第二目标驾驶行为信息输出的第二轨迹序列;对所述第二轨迹序列和所述第二目标驾驶行为信息进行融合,得到第二行驶序列;根据所述第一行驶序列与预设的目标示教行驶序列之间的差异,对所述行为决策层进行优化,所述目标示教行驶序列中包括示教轨迹序列和示教驾驶行为信息;根据所述第二行驶序列与所述目标示教行驶序列之间的差异,对所述运动规划层进行优化。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一行驶序列与目标示教行驶序列之间的差异,对所述行为决策层进行优化,包括:获取判别模型输入所述第一行驶序列时的第一输出,所述判别模型用于判断输入的行驶序列是否为示教行驶序列;并根据所述第一输出对所述行为决策层进行优化;所述根据所述第二行驶序列与所述目标示教行驶序列之间的差异,对所述运动规划层进行优化,包括:获取所述判别模型输入所述第二行驶序列时的第二输出;根据所述第二输出对所述运动规划层进行优化;并且,所述方法还包括:获取所述判别模型输入所述目标示教行驶序列时的第三输出;根据所述第一输出、所述第二输出和所述第三输出,对所述判别模型进行优化。3.根据权利要求2所述的方法,其特征在于,所述根据所述第二输出对所述运动规划层进行优化,包括:使用策略优化法,基于所述第二输出,对所述运动规划层进行优化。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一输出对所述行为决策层进行优化,包括:获取第一函数的梯度,并使用梯度下降法根据所述第一函数的梯度对所述行为决策层进行优化,所述第一函数的自变量包括所述第一输出。5.根据权利要求4所述的方法,其特征在于,所述第一函数的表达式为:其中,N表示预设的根据所述第一函数的梯度优化所述行为决策层的次数,ω为预设的值,T
j
表示所述第一轨迹序列的长度,表示所述第一输出,λ
E
为预设的值,表示所述N次优化中的第j次优化时所对应的示教行驶行为,表示所述行为决策层的输入为所述示教轨迹序列时所述行为决策层输出行驶行为的条件概率,λ
G
为预设的值。
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述根据所述第一输出、所述第二输出和所述第三输出,对所述判别模型进行优化,包括:获取第二函数的梯度,并使用梯度上升法根据所述第二函数的梯度,对所述判别模型进行优化,所述第二函数的自变量包括所述第一输出、所述第二输出和所述第三输出。7.根据权利要求6所述的方法,其特征在于,所述第二函数的表达式为:其中,N
e
表示所述示教轨迹序列的长度,表示所述第三输出,N表示预设的优化所述判别模型的次数,ω为预设的值,T
j
表示所述第一轨迹序列的长度,表示所述第二输出,表示所述第一输出。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述目标示教驾驶序列是从预先配置的示教数据集中选取的,所述示教数据集中包括第一驾驶场景下的多个示教驾驶序列;其中,所述方法还包括:更新所述示教数据集,更新后的所述示教数据集中包括第二驾驶场景下的示教驾驶序列。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述目标示教驾驶序列为驾驶员驾驶车辆时采集的驾驶序列。10.一种基于决策控制系统控制车辆行驶的方法,其特征在于,所述决策控制系统包括行为决策层和运动规划层,所述决策控制系统是使用如权利要求1至9中任一项所述的方法优化得到的,所述方法包括:使用所述行为决策层,基于车辆的环境信息,输出所述车辆的目标驾驶行为信息;使用所述运动规划层,基于所述目标驾驶行为信息,输出所述车辆的轨迹信息;根据所述轨迹信息控制所述车辆行驶。11.一种优化决策规控的装置,其特征在于,所述装置包括:获取模块,用于获取第一轨迹序列,所述第一轨迹序列中包括车辆在第一环境中的轨迹信息;所述获取模块还用于获取决策控制系统的行为决策层基于所述第一环境的信息输...

【专利技术属性】
技术研发人员:王滨庄雨铮刘武龙
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1