自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质技术

技术编号:38209763 阅读:14 留言:0更新日期:2023-07-21 17:00
本发明专利技术总体涉及一种用于自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质。车辆包括至少一个感测设备和至少一个运动控制器,至少一个运动控制器被配置为在向运动控制器提供至少一个控制值的情况下影响车辆的运动。该方法包括至少基于利用感测设备获取的关于车辆的环境的数据来确定车辆的至少一个状态。该方法还包括使用深度神经网络基于有界激活函数确定车辆的至少一个运动控制器的至少一个归一化动作。此外,该方法包括使用边界提取函数将至少一个归一化动作映射到至少一个控制值。少一个控制值。少一个控制值。

【技术实现步骤摘要】
自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质


[0001]本专利技术总体涉及用于自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质。

技术介绍

[0002]强化学习(RL)是机器学习的一个分支,在为高度自动化或自主车辆(也称为虚拟驾驶员)创建决策算法方面显示出巨大潜力。特别地,在需要考虑大量信息的复杂环境中,RL与手工制作的虚拟驱动程序相比具有优势。使用RL算法,虚拟驾驶员通过与环境交互自动获得最佳行为。这种最佳行为由一个策略来描述,将代理感知的环境状态映射到代理可用的动作。获得最佳行为是在试错的基础上实现的。换句话说,基于感知的状态,代理(虚拟驾驶员)选择要执行的动作,以实现预期目标,例如到达预定义的目的地。通过加强给定的状态动作对(state

aciton pair)的正面结果(“培训情景”)修改该策略,而负面结果则被削弱。由此,获得了导致改进结果的自动进化过程。
[0003]鉴于潜在的过程,可靠性必须通过环境交互来学习。然而,这通常会在培训和应用过程中导致潜在的不可预见的配置(交通情景)。在驾驶情况下代表可靠性保证的约束(也称为“道路常识规则”)很难纳入此类RL程序。
[0004]解决此问题的一种方法是在基础评估过程中包含指定的控制器。控制器监控所选的离散动作,并且将所选的动作转换为“可靠动作”。然而,这种方法需要考虑所有可能的动作空间。换句话说,对于影响车辆运动的所有可能措施,需要规定可靠的约束。因此,如果甚至可以预先识别所有可能的“不期望”动作,这种方法会导致复杂的监管情景。
[0005]另一种方法包括通过应用额外的优化程序来优化每个时间步的“要执行的动作”,并且可选地,包括其他条件,例如每次激活单个约束。换言之,二次评估过程适用于潜在的可靠性方面。尽管该方法也可以应用于连续动作,但该方法会导致较高的计算工作量,并且通常在计算资源有限的汽车应用中不可行。
[0006]一些替代方法会删除可用的动作集,从而排除“不希望的”动作。这可以在代理决定动作之前的预处理步骤中实现,也可以在代理已经做出决定之后的后处理步骤中完成。在后一种情况下,动作被分配不同的优先级,并且选择执行可靠且具有最高优先级的动作。
[0007]要提及的相关现有技术是出版物US 9977430 B2、CN 106157650 A、CN 110562258A和CN 109598934A。
[0008]然而,所有现有技术的方法都基于包括人为的可靠性约束使得动作空间受到限制。因此,需要首先识别“不期望的”动作,并且需要包括对这些动作做出反应的某些措施,这在计算上是昂贵的。
[0009]因此,需要提供一种用于自主驾驶车辆的方法、数据处理电路、计算机程序和计算机可读介质,其允许优选地也在训练阶段省略人工约束。

技术实现思路

[0010]根据独立权利要求的主题服务于各自的需要。附加的实施例在从属权利要求和以下描述中被指示,其中的每一个单独地或组合地可以表示本专利技术的方面。本专利技术的一些方面是关于方法而呈现的,其他方面是关于相应的设备而呈现的。然而,这些特征也相应地被转换,反之亦然。
[0011]下面阐述本文公开的某些实施例的概要。应当理解,呈现这些方面仅仅是为了提供这些实施例的简要概述,并且这些方面不旨在限制本专利技术的范围。本专利技术可以包含以下可能未阐述的各种方面。
[0012]根据一方面,提供了一种用于自主驾驶车辆的方法。车辆包括至少一个感测设备和至少一个运动控制器。运动控制器被配置为如果至少一个控制值(表示为:a)被提供给运动控制器,则影响车辆的运动。该方法至少包括以下步骤:
[0013]S1至少基于利用感测设备获取的关于车辆的环境的数据来确定车辆的至少一个状态(表示为:s);
[0014]S2使用深度神经网络基于有界激活函数确定车辆的至少一个运动控制器的至少一个归一化动作(表示为:)。有界激活函数被配置为相对于车辆的至少一个状态限制至少一个归一化动作以及
[0015]S3使用边界提取函数将至少一个归一化动作映射到至少一个控制值(a)。边界提取函数被配置为基于车辆的状态提供至少一个上限和至少一个下限,以限制至少一个控制值(a),使得在向车辆的至少一个运动控制器提供至少一个控制值(a)时限制车辆的运动。
[0016]一般来说,深度神经网络由大量分层组织的连接神经元组成。深度神经网络允许从训练示例中自动学习特征。在这方面,如果神经网络具有输入和输出层以及至少一个隐藏的中间层,那么它被认为是“深度”的。每个节点都是根据来自前一层中的多个节点的加权输入来计算的。换句话说,在学习过程中,虚拟驾驶员(自主车辆)遵循描述深度神经网络机制的随机初始化策略π(s;θ
μ
)。这里,(s)描述了车辆的确定状态,θ
μ
描述了特定神经元的相应输入和输出信号之间所有神经元的权重。换言之,π(s;θ
μ
)描述了车辆至少一个运动控制器从确定状态到归一化输出动作的特定映射策略。因此,基于策略π(s;θ
μ
),归一化动作将被限制在预定义的间隔内。取决于由车辆的状态确定的边界的边界提取函数用于相对于控制值(a)重新缩放预定间隔。特别地,控制值(a)表示可提供给至少一个运动控制器以影响车辆运动的量。通过重新缩放预定义的间隔,车辆的运动被限制在一个范围内,从而避免车辆的不希望的运动。可以通过提取车辆的状态的适当边界来考虑这些不需要的运动。这是因为状态不仅包括关于本车辆(这里“自我”表示被检测的车辆)的信息,而且还包括关于本车辆遇到的一般交通情景的信息。作为示例,基于状态中包括的信息可以确定下限和上限,因为考虑到车辆的环境而获取的数据可以指示要排除车辆的特定运动以避免“不期望的”动作。据此确定的控制值(a)影响车辆的运动,从而自动遵守用户定义的条件以仅允许“可靠”的动作。
[0017]换言之,鉴于本方法的架构,可靠性方面被自动考虑。特定的架构强制虚拟驾驶员在训练期间以及在常规操作期间保持在特定的预定义状态相关边界内。可以避免基于先前
领域知识手动应用可靠性程序(例如可靠性控制器等)以确保整个学习阶段的可靠性。此外,无需应用优先级排序过程。此外,在应用该方法之前,不需要预先识别车辆的“不期望”动作。相反,当确定自主传播到确定归一化动作以及确定最终影响车辆的运动的控制值(a)的过程中的状态时,可以包括相对条件。
[0018]由于相对可靠性度量被锚定在深度神经网络本身的架构内,因此可以毫无疑问地表明,在完成训练过程之后,相对可靠性方面也得到了尊重。鉴于在学习过程中未遇到的潜在情况(车辆相对于其环境的状态),这是特别有利的。
[0019]在本上下文中,至少一个感测设备可以被认为是被配置为获取数据的设备,以在至少一个方面确定本车辆相对于环境的状态以及车辆相对于布置在本车辆的环境内的其他车辆的状态。例如,感测设备可以被认为是摄像机、光检测和测距(LiDaR)设备、无线电检测和测距(雷达)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自主驾驶车辆(50)的方法(10),所述车辆(10)包括至少一个感测设备(110)和至少一个运动控制器(106),其中所述运动控制器(106)被配置为如果至少一个控制值(88)被提供给所述运动控制器(106),则影响所述车辆(50)的运动,其中所述方法至少包括以下步骤:S1至少基于利用感测设备(110)获取的关于所述车辆(50)的环境(52)的数据来确定所述车辆(50)的至少一个状态(42);S2使用深度神经网络(62)基于有界激活函数确定所述车辆(50)的所述至少一个运动控制器(106)的至少一个归一化动作(70),其中所述有界激活函数被配置为相对于所述车辆(50)的所述至少一个状态(42)限制所述至少一个归一化动作(60);以及S3使用边界提取函数(82)将所述至少一个归一化动作(70)映射到至少一个控制值(88),其中所述边界提取函数(82)被配置为基于所述车辆(50)的所述状态(42)提供至少一个上限(84B)和至少一个下限(84A),以限制所述至少一个控制值(88),使得在向所述车辆(50)的所述至少一个运动控制器(106)提供所述至少一个控制值(88)时限制所述车辆(50)的运动。2.根据权利要求1所述的方法(10),其中所述方法还包括:S4至少基于连续概率分布(96)来确定所述深度神经网络(62)的可靠的探测机制(94),其中考虑由所述边界提取函数(82)提供的所述至少一个上限(84B)和所述至少一个下限(84A)来确定所述连续概率分布(96)。3.根据前述权利要求中任一项所述的方法(10),其中所述方法还包括:S5使用至少一种强化学习算法来训练所述深度神经网络(62),所述强化学习算法包括基于所述可靠的探索机制(94)的相关数据,其中,所述相关数据包括所确定的所述车辆(50)的所述至少一个状态(42)和取决于所确定的所述至少一个状态(42)的所确定的所述车辆(50)的所述至少一个运动控制器(106)的所述至少一个归一化动作(70);或者其中,所述相关数据包括所确定的所述车辆(50)的所述至少一个状态(42)和取决于所确定的所述至少一个状态(42)的所确定的所述至少一个控制值(88)。4.根据前述权利要求中任一项所...

【专利技术属性】
技术研发人员:布拉姆
申请(专利权)人:福特全球技术公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1