用于自动驾驶的基于学习的控制器制造技术

技术编号:30342750 阅读:20 留言:0更新日期:2021-10-12 23:18
在一个实施方式中,利用MPC控制器生成控制命令,所述MPC控制器包括成本函数,所述成本函数具有与成本函数的成本项相关联的权重。控制命令被应用于自动驾驶车辆(ADV)的动态模型以模拟ADV的行为。权重中的一个或多个是基于对响应于控制命令的动态模型的评估的,从而生成MPC控制器的调整的成本函数。利用具有调整的成本函数的MPC控制器来产生另一控制命令。该第二控制命令可用于实现ADV的移动。该第二控制命令可用于实现ADV的移动。该第二控制命令可用于实现ADV的移动。

【技术实现步骤摘要】
用于自动驾驶的基于学习的控制器


[0001]本公开的实施方式总体上涉及操作自动驾驶车辆。更具体地,本公开的实施方式涉及用于自动驾驶的基于学习的控制器。

技术介绍

[0002]以自动模式(例如,无驾驶员)操作的车辆可减轻乘坐者、尤其是驾驶员的某些驾驶相关的责任。当在自动模式下操作时,车辆可使用车载传感器导航到各种位置,从而允许车辆以最少的人机交互或者在一些情况下不需要任何乘客来行进。
[0003]自动驾驶车辆的车辆控制器可以产生控制命令以根据期望的路径或路线使车辆移动。控制器可以利用静态控制算法。
[0004]模型预测控制器可以生成将在将来的时间帧上应用的、使受控对象沿着预测的路径移动的命令序列。可以针对不同的项对命令序列进行优化,例如,横向轨迹误差、行驶方向误差以及速度、加速度、行驶方向等的突然变化。将命令序列中的第一个应用于受控对象。在随后的时间(例如,下一个周期),重复该过程,并且在每个周期将新的命令序列中的第一个应用于受控对象。
[0005]这种控制器可用于控制和操作自动驾驶车辆(ADV),以沿目标路径以目标速度行进。MPC(模型预测控制)可以使用静态优化算法和静态车辆模型来生成优化的命令序列。然而,这些控制算法可能不考虑车辆环境的变化或车辆的变化。无论车辆的环境是什么以及车辆的物理状态改变了多少,控制器都将使用相同的算法来实现期望的速度和转向行为。这会降低安全性并引起不舒服的驾驶体验。

技术实现思路

[0006]本公开的实施方式提供了用于操作自动驾驶车辆ADV的方法、存储有指令的非暂时性机器可读介质以及数据处理系统。
[0007]在本公开的一方面,用于操作自动驾驶车辆ADV的方法包括:利用模型预测控制MPC控制器生成控制命令,所述MPC控制器包括使用成本函数的优化器,所述成本函数配置有与所述成本函数的成本项相关联的一个或多个权重;将所述控制命令应用于所述ADV的动态模型以模拟所述ADV的行为;基于对响应于所述控制命令的所述动态模型的评估来调整所述一个或多个权重,从而得到所述MPC控制器的调整的成本函数;以及利用具有所述调整的成本函数的所述MPC控制器,生成用于实现所述ADV的移动的第二控制命令。
[0008]在本公开的另一方面,公开了存储有指令的非暂时性机器可读介质,所述指令在由处理器执行时使所述处理器执行操作自动驾驶车辆ADV的操作,所述操作包括:利用模型预测控制MPC控制器生成控制命令,所述MPC控制器包括使用成本函数的优化器,所述成本函数配置有与所述成本函数的成本项相关联的一个或多个权重;将所述控制命令应用于所述ADV的动态模型以模拟所述ADV的行为;基于对响应于所述控制命令的所述动态模型的评估来调整所述一个或多个权重,从而得到所述MPC控制器的调整的成本函数;以及利用具有
所述调整的成本函数的所述MPC控制器,生成用于实现所述ADV的移动的第二控制命令。
[0009]在本公开的又一方面,数据处理系统包括:处理器;以及存储器,联接到所述处理器以存储指令,所述指令在由所述处理器执行时致使所述处理器执行操作自动驾驶车辆ADV的操作,所述操作包括:利用模型预测控制MPC控制器生成控制命令,所述MPC控制器包括使用成本函数的优化器,所述成本函数配置有与所述成本函数的成本项相关联的一个或多个权重;将所述控制命令应用于所述ADV的动态模型以模拟所述ADV的行为;基于对响应于所述控制命令的所述动态模型的评估来调整所述一个或多个权重,从而得到所述MPC控制器的调整的成本函数;以及利用具有所述调整的成本函数的所述MPC控制器,生成用于实现所述ADV的移动的第二控制命令。
附图说明
[0010]本公开的实施方式在附图的图示中以示例性的方式而非限制性的方式示出,在附图中,相同的附图标记指示类似的元件。
[0011]图1是示出根据一个实施方式的网络化系统的框图。
[0012]图2是示出根据一个实施方式的自动车辆的示例的框图。
[0013]图3A至图3B是示出根据一个实施方式的与自动车辆一起使用的感知和规划系统的示例的框图。
[0014]图4示出根据一个实施方式的用于自动驾驶的系统架构的框图。
[0015]图5示出根据一个实施方式的基于场景控制自动驾驶车辆的过程。
[0016]图6示出根据一个实施方式的基于学习的模型预测控制器。
[0017]图7示出根据一个实施方式的用于根据基于学习的模型预测控制器来控制自动驾驶车辆的系统。
具体实施方式
[0018]将参考以下讨论的细节来描述本公开的各种实施方式和各方面,并且附图将示出各种实施方式。以下描述和附图是本公开的示例,而不应被解释为限制本公开。本文描述了许多具体细节,以提供对本公开的各种实施方式的透彻理解。然而,在某些情况下,为了提供对本公开的实施方式的简洁讨论,没有描述公知的或常规的细节。
[0019]在说明书中提及“一个实施方式”或“实施方式”意味着结合该实施方式描述的特定特征、结构或特性可包括于本公开的至少一个实施方式中。在说明书各处出现的表达“在一个实施方式中”不一定均指同一实施方式。
[0020]根据一些实施方式,在线学习系统基于自动驾驶车辆(ADV)的当前物理环境和ADV的当前物理状态来更新用于控制器(例如,模型预测控制器)的参数。MPC可以基于所预测的ADV的移动来产生一系列优化的控制命令。这些预测的移动将依目标路径或路线(包括沿着路线上的路点的位置和行驶方向)而行进,同时各项进行优化以减少不希望的状况(例如,速度、加速度和行驶方向的大的变化)。因此,控制命令通过MPC来优化,并且当被施加到ADV控制致动器时,将使ADV依目标路径行进。
[0021]然后将这些控制命令应用于表示ADV的车辆动态模型,以模拟ADV如何响应。在模拟中,考虑实时环境状况,例如车流量、道路状况(例如,潮湿、打滑、有冰)、感测的障碍物
等。ADV还可以具有增加ADV质量的乘客或其它货物物品。燃料、电池电量状态或电池健康状态也可以改变。在模拟中可以考虑这些变化。基于仿真来评估和调整MPC控制器的优化参数(例如,权重或系数)。
[0022]调整的MPC控制器用于产生考虑了ADV的当前环境状况的一个或多个控制命令。这种调整可以周期性地进行,例如,基于每个行驶周期。以这种方式,在行驶的同时,MPC控制器被周期性地“在线”调整。在本公开中讨论了其它方面和细节。
[0023]图1是示出根据本公开的一个实施方式的自动车辆网络配置的框图。参照图1,网络配置100包括可通过网络102通信地联接至一个或多个服务器103至104的自动车辆101。尽管示出了一个自动车辆,但是多个自动车辆可彼此联接和/或通过网络102联接至服务器103至104。网络102可为有线或无线的任何类型的网络,诸如局域网(LAN)、诸如因特网的广域网(WAN)、蜂窝网络、卫星网络或其组合。一个或多个服务器103至104可为任何类型的服务器或服务器群集,诸如Web或云服务器、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于操作自动驾驶车辆ADV的方法,所述方法包括:利用模型预测控制MPC控制器生成控制命令,所述MPC控制器包括使用成本函数的优化器,所述成本函数配置有与所述成本函数的成本项相关联的一个或多个权重;将所述控制命令应用于所述ADV的动态模型以模拟所述ADV的行为;基于对响应于所述控制命令的所述动态模型的评估来调整所述一个或多个权重,从而得到所述MPC控制器的调整的成本函数;以及利用具有所述调整的成本函数的所述MPC控制器,生成用于实现所述ADV的移动的第二控制命令。2.根据权利要求1所述的方法,其中,对所述动态模型的所述评估是相对于所述ADV周围的一个或多个当前环境状况来执行的,所述当前环境状况包括以下各项中的至少一项:行人、另外的车辆、道路边界、或建筑物、天气、道路潮湿或打滑,以及车流量。3.根据权利要求2所述的方法,其中,调整所述一个或多个权重包括:响应于所述一个或多个当前环境状况指示所述道路潮湿或打滑,增大所述一个或多个权重中的与转向成本项相关联的一个权重,以制约转向。4.根据权利要求2所述的方法,其中,调整所述一个或多个权重包括:响应于所述一个或多个当前环境状况指示低车流量,减小所述一个或多个权重中的与速度成本项相关联的一个权重,以更积极地增大速度。5.根据权利要求2所述的方法,其中,调整所述一个或多个权重包括:响应于所述一个或多个当前环境状况指示高车流量,减小所述一个或多个权重中的与制动成本项相关联的一个权重,以增大制动。6.根据权利要求1所述的方法,其中,所述ADV的动态模型模拟所述ADV在虚拟环境中的行为,所述虚拟环境包括所述ADV周围的当前环境的二维或三维表示。7.根据权利要求1所述的方法,其中,所述ADV的动态模型包括所述ADV的一个或多个物理属性,所述物理属性包括以下中的至少一个:制动状况、所述ADV中的乘客或货物、电池电量状态或燃料量,其中,所述一个或多个物理属性是所述ADV的当前状态的表示。8.根据权利要求1所述的方法,其中,所述MPC控制器包括与所述成本函数一起使用的所述ADV的简化模型,以用于生成优化的控制命令序列,所述ADV的简化模型具有比所述ADV的动态模型更不精确的ADV表示。9.根据权利要求1所述的方法,其中,对响应于所述控制命令的所述动态模型的评估是基于以下各项中的至少一者:所述动态模型与行人、另外的车辆或建筑物的接近程度;所述动态模型相对于速度约束的速度;所述动态模型相对于加速度约束的加速度;所述动态模型相对于道路边界或路径的位置;能够引起乘坐不舒适的行驶方向或速度的变化;以及控制力。10.根据权利要求1所述的方法,其中,所述控制命令包括以下中的至少一个:油门命令、转向命令、制动命令。11.根据权利要求1所述的方法,其中,所述成本函数的所述成本项包括以下各项中的至少一个:横向轨迹误差、行驶方向误差、速度成本、转向成本、加速度成本、转向变化率、制动和加速度变化率。12.根据权利要求1所述的方法,其中,生成所述控制命令包括:将所述MPC控制器应用
于目标控制对象以生成控制命令序列,以及将所述控制命令序列中的第一个控制命令作为所述控制命令,所述...

【专利技术属性】
技术研发人员:姜舒罗琦缪景皓胡江滔王禹周金运陶佳鸣许珂诚
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1