训练用于自主车辆的人工智能单元制造技术

技术编号:35019966 阅读:26 留言:0更新日期:2022-09-24 22:48
本发明专利技术的一个方面描述了一种用于训练针对自主车辆的人工智能单元的系统,其中所述人工智能单元包括知识配置,其中所述人工智能单元考虑输入状态并且考虑知识配置来确定针对自主车辆的至少两个运动动作的评估值,所述输入状态表征自主车辆和至少一个其他道路使用者,并且所述系统被配置为考虑相应运动动作的评估值而从运动动作集中选择一个运动动作,通过考虑所选择的运动动作调整人工智能单元的知识配置来训练人工智能单元,并且所述知识配置至少表征至少一个其他道路使用者的授权。置至少表征至少一个其他道路使用者的授权。置至少表征至少一个其他道路使用者的授权。

【技术实现步骤摘要】
【国外来华专利技术】训练用于自主车辆的人工智能单元


[0001]本专利技术涉及用于训练针对自主车辆(automated vehicle)的人工智能单元的系统和方法。

技术介绍

[0002]自主车辆是具有自主纵向引导和/或自主横向引导的车辆。术语“自主车辆”还包括自动化(autonomous)车辆。术语“自主车辆”特别地包括具有任意自主等级的车辆,例如在标准SAE J3016(SAE

车辆工程协会)中定义的自主等级:
[0003]等级0:自主系统发出警告并且可能暂时进行干预,但没有持续的车辆控制。
[0004]等级1(“手参与”):驾驶员和自主系统共享车辆的控制权。示例为自适应巡航控制(ACC),其中驾驶员控制转向,而自主系统控制速度;以及停车辅助,其中转向是自主的,而速度是手动控制的。驾驶员必须随时准备好重新获得完全控制权。车道保持辅助(LKA)II型是等级1自动驾驶的另一示例。
[0005]等级2(“手离开”):自主系统完全控制车辆(加速、制动和转向)。驾驶员必须监控驾驶情况,并且准备好在自主系统无法正确响应时随时进行干预。简写“手离开”并不是按字面意思理解的。实际上,在SAE 2驾驶期间,手和方向盘之间的接触通常是强制性的,以确认驾驶员已准备好进行干预。
[0006]等级3(“眼离开”):驾驶员可以安全地将注意力从驾驶任务上移开,例如司机可以发短信或看电影。车辆将处理需要立即响应的情况,例如紧急制动。当车辆要求驾驶员进行干预时,驾驶员仍必须准备好在制造方指定的某有限时间内进行干预。
[0007]等级4(“心神力离开”):与等级3一样,但不需要驾驶员的注意力在安全上,即驾驶员可以安全地睡觉或离开驾驶员座位。仅在有限的空间区域(地理围栏)或特殊情况下(如交通拥堵)支持自身驾驶。在这些区域或情况之外,车辆必须能够安全地中止行程,即如果驾驶员不重新控制车辆,则停车。
[0008]等级5(“转向方向盘可选”):完全不需要人为干预。一个示例是机器人出租车。
[0009]自主车辆可以使用各种技术进行运动规划,例如使用人工智能。

技术实现思路

[0010]本专利技术的目的是学习自主车辆以按照符合社会要求的方式安全地导航到其目标。
[0011]本专利技术的一个方面是一种用于训练针对自主车辆的人工智能单元的系统。例如,自主车辆是能够移动的移动机器人或车辆或卡车。
[0012]人工智能单元的一个示例是强化学习单元。
[0013]基本强化被建模为马尔可夫(Markov)决策过程:
[0014]·
环境和代理状态集;
[0015]·
代理的动作集;
[0016]·
从一种状态转换到另一状态的概率,
[0017]·
通过特定动作从一种状态转换到另一种状态后的奖励,以及
[0018]·
描述代理观察的规则。
[0019]规则通常是随机的。观察通常涉及与最后一个转换相关联的标量即时奖励。在许多作品中,假定代理观察当前环境状态(完全可观察性)。如果不是,则代理具有部分可观察性。有时,对代理可用的动作集受到限制(无法减少零余额)。
[0020]强化学习代理以离散的时间步长与其环境交互。在每个时间步长,代理收到观察,通常包括奖励。然后它从可用动作集中选择动作,其随后被发送到环境。环境移动到新状态,并且与转换相关联的奖励被确定。强化学习代理的目标是收集尽可能多的奖励。代理可以(可能随机地)选择任何作为历史函数的动作。
[0021]人工智能单元的另一示例是Q学习单元。
[0022]Q学习是强化学习技术。Q学习的目标是学习策略,它告诉代理在什么情况下要采取什么行动。它不需要环境模型,并且可以处理随机转换和奖励的问题,而不需要适应。
[0023]针对任何有限马尔可夫决策过程,Q学习会找到最优策略,即它从当前状态开始,在所有连续步骤中最大化总奖励的期望值。在给定无限探索时间和部分随机策略的情况下,Q学习可以针对任何给定的有限马尔可夫决策过程标识最佳动作选择策略。“Q”命名返回用于提供强化的奖励的函数,并且可以说代表在给定状态下所采取的动作的“质量”。
[0024]人工智能单元的另一示例是深度Q学习单元。
[0025]深度Q学习使用深度卷积神经网络,具有用以模拟感受域的效果的平铺卷积过滤器层,其中卷积神经网络是一类前馈人工神经网络。当使用诸如神经网络之类的非线性函数逼近器来表示Q时,强化学习是不稳定或发散的。这种不稳定性来自观察序列中存在的相关性,对Q的小更新可能会显著改变策略和数据分布的事实,以及Q与目标值之间的相关性。
[0026]所述人工神经网络是受构成动物大脑的生物神经网络的模糊启发的计算系统。这样的系统通过考虑示例来“学习”执行任务,通常无需利用任何任务特定的规则进行编程。例如,在图像识别中,他们可能会通过分析已经被手动标记为“猫”或“无猫”的示例图像并且使用结果以标识其他图像中的猫来学习标识包含猫的图像。他们在没有任何关于猫的先验知识的情况下这样做,例如,它们有毛皮、尾巴、胡须和猫一样的脸。相反,他们会自动从他们处理的学习材料中生成标识特性。
[0027]人工神经网络基于称为人工神经元的连接单元或节点的集合,它们对生物大脑中的神经元进行松散的建模。每个连接,就像生物大脑中的突触一样,可以将信号从一个人工神经元传输到另一人工神经元。接收信号的人工神经元可以对其进行处理,然后向与其相连的附加人工神经元发出信号。
[0028]在常见的人工神经网络实现中,人工神经元之间连接处的信号是实数,并且每个人工神经元的输出是通过其输入之和的某个非线性函数而被计算的。人工神经元之间的连接称为“突触”。人工神经元和突触具有会随着学习的进行而调整的权重。权重增加或减少连接处的信号强度。人工神经元可以具有阈值,使得仅当聚合信号超过该阈值时才发送信号。通常,人工神经元被聚合成层。不同的层可以对其输入执行不同类型的变换。信号从第一层(输入层)行进到最后一层(输出层),可能是在多次遍历这些层之后。
[0029]人工神经网络方法的最初目标是以与人脑相同的方式解决问题。然而,随着时间的推移,注意力转移到执行特定任务上,导致与生物学的偏差。人工神经网络已被用于各种
任务,包括计算机视觉、语音识别、机器翻译、社交网络过滤、玩棋盘和视频游戏以及医学诊断。
[0030]所述人工智能单元包括知识配置,例如Q表(如果所述人工智能单元是Q学习单元)或突触权重(如果所述人工智能单元是深度Q学习单元)。
[0031]所述人工智能单元考虑输入状态并且考虑知识配置来确定针对自主车辆的至少两个运动动作的评估值,所述输入状态表征自主车辆和至少一个其他道路使用者,例如自主车辆的空间位置和至少一个其他道路使用者的空间位置。
[0032]至少两个运动动作具体是关于自主车辆的纵向和/或横向运动的运动动作,例如加速、减速、左转、右转、换到左边车道、留在车道或换到右边车道。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练针对自主车辆(EGO)的人工智能单元(AIU)的系统,其中所述人工智能单元(AIU)包括知识配置(KC),其中所述人工智能单元(AIU)考虑输入状态(IS、s1

s5)、并且考虑所述知识配置(KC)来确定针对所述自主车辆(EGO)的至少两个运动动作(ma1、ma2、ma3)的评估值,所述输入状态(IS、s1

s5)表征所述自主车辆(EGO)和至少一个其他道路使用者(RU1、RU2),并且所述系统被配置为:
·
考虑相应运动动作(ma1、ma2、ma3)的所述评估值而从运动动作集(ma1、ma2、ma3)中选择一个运动动作(ma),
·
通过考虑所选择的所述运动动作(ma)而调整所述人工智能单元(AIU)的所述知识配置(KC)来训练所述人工智能单元(AIU),以及其特征在于:
·
所述知识配置(KC)至少表征所述至少一个其他道路使用者(RU1、RU2)的授权。2.根据权利要求1所述的系统,其中至少一个其他道路使用者(RU)的所述授权至少由所述至少一个其他道路使用者(RU1、RU2)的可能的未来运动动作的数目来表征。3.根据前述权利要求中任一项所述的系统,所述知识配置(KC)还表征关于所述自主车辆(EGO)达到目标的奖励。4.根据前述权利要求中任一项所述的系统,所述知识配置(KC)还表征所述自主车辆(EGO)与其他道路使用者(RU1、RU2)之间的距离。5.根据前述权利要求中任一项所述的系统,其中所述人工智能单元(AIU)确定针对所述自主车辆(EGO)的至少两个运动动作(ma1、ma2、ma3)的评估值,使得如果所述第一运动动作向所述至少一个其他道路使用者(RU1、RU2)提供比所述第二运动动作更高数目的可能的未来运动动作,则所述第一运动动作被确定为比所述第二运动动作更高的评估值。6.根据前述权利要求中任一项所述的系统,其中所述人工智能单元(AIU)确定针对所述自主车辆(EGO)的至少两个运动动作(ma1、ma2、ma3)的评估值,使得如果所述自主车辆(EGO)的环境的未来状态针对第一运动动作比针对第二运动动作更可预测,则所述第一运动动作被确定为比所述第二运动动作更高的评估值。7.根据前述权利要求中任一项所述的系统,其中所述人工智能单元(AIU)确定针对所述自...

【专利技术属性】
技术研发人员:T
申请(专利权)人:宝马汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1