用于自主驾驶应用的无监督学习代理制造技术

技术编号:20566214 阅读:34 留言:0更新日期:2019-03-14 09:06
提供了用于控制车辆的系统和方法。在一个实施例中,提供了一种包括训练自主驾驶代理的计算机实施方法,该方法包括以下步骤:由处理器使用神经网络从驾驶行为的演示中提取信息;将提取的信息传输到发生器模块;将与驾驶行为的演示相关联的真实环境状态传输到鉴别器模块;由处理器使用发生器模块从提取的信息中产生环境状态解译;由处理器训练鉴别器模块以更好地确定所产生的环境状态解译是否对应于真实环境状态,同时由处理器训练发生器模块以产生鉴别器确定对应于真实环境状态的改进的环境状态解译;并且由处理器使用从经过训练的发生器模块中产生的环境状态解译来恢复奖励图。

Unsupervised learning agent for autonomous driving applications

A system and method for controlling a vehicle are provided. In one embodiment, a computer implementation method including training autonomous driving agent is provided, which includes the following steps: extracting information from driving behavior demonstration by processor using neural network; transferring the extracted information to generator module; transferring the real environment state associated with driving behavior demonstration to discriminator module; and sending it by processor using The generator module generates the environment state interpretation from the extracted information; the processor trains the discriminator module to better determine whether the generated environment state interpretation corresponds to the real environment state, while the processor trains the generator module to generate the discriminator to determine the improved environment state interpretation corresponding to the real environment state; and the processor uses the improved environment state interpretation from the trained occurrence. The environment state generated in the module is interpreted to restore the reward map.

【技术实现步骤摘要】
用于自主驾驶应用的无监督学习代理引言本公开总体上涉及自主车辆,并且更具体地涉及用于自主车辆驾驶代理的无监督训练的系统和方法。
技术介绍
本节提供与本公开有关的背景信息,该背景信息不一定是现有技术。自主车辆是能够感测其环境并且以很少或不需要用户输入进行导航的车辆。自主车辆使用诸如雷达、激光雷达、图像传感器等感测装置来感测其环境。自主车辆系统进一步使用来自全球定位系统(GPS)技术、导航系统、车对车通信、车对基础设施技术和/或线控驱动系统的信息来对车辆进行导航。车辆自动化已经被分类为从零(对应于全人为控制的非自动化)到五(对应于无人为控制的全自动化)的范围中的数值等级。各种自动驾驶员辅助系统(诸如巡航控制、自适应巡航控制以及停放辅助系统)对应于较低自动化等级,而真正的“无人驾驶”车辆对应于较高自动化等级。驾驶车辆需要来自驾驶员的大量技能、经验以及感知。因此,必须训练自主代理以便能够匹配或者甚至超越人类的驾驶能力。因此,与人类驾驶员相比,期望获得训练自主驾驶代理以进行等效或改进的驾驶决策的方法。另外,期望获得训练自主驾驶代理的方法,该方法在很大程度上是无监督的,并且不需要对训练数据进行大量标记。还期望恢复关于为什么自主驾驶代理响应于特定环境状态而选择特定驾驶动作的推理(潜在动机)。另外,从以下结合附图和前面的

技术介绍
进行的实施方式和所附权利要求书中将更清楚地明白本专利技术的其它期望特征和特性。
技术实现思路
提供了用于控制车辆的系统和方法。在一个实施例中,提供了一种训练自主驾驶代理的计算机实施方法,该方法包括以下步骤:由处理器使用神经网络从驾驶行为的演示中提取信息;由处理器从提取的信息中恢复奖励图;将提取的信息传输到发生器模块;将与驾驶行为的演示相关联的真实环境状态和恢复的奖励图传输到鉴别器模块;由处理器使用发生器模块从提取的信息中产生环境状态解译;由处理器训练鉴别器模块以更好地确定所产生的环境状态解译是否对应于真实环境状态,同时由处理器训练发生器模块以产生该鉴别器确定对应于真实环境状态的改进的环境状态解译。在一个实施例中,该方法进一步包括使用显示器显示改进的环境状态解译。在一个实施例中,由发生器产生的改进的环境状态用于更新奖励图。在实施例中,其中驾驶行为的演示取自人类驱动的数据日志(例如,存储在计算机存储器中),例如取自不同的驾驶环境和/或具有不同的驾驶目标。在一个实施例中,使用卷积神经网络提取所提取的信息。在一个实施例中,卷积神经网络是深度卷积神经网络。在一个实施例中,经由深度逆强化学习模块使用深度逆强化学习来恢复奖励函数。在一个实施例中,使用损失或成本梯度函数来执行鉴别器模块的训练。在一个实施例中,使用损失或成本梯度函数来执行发生器模块的训练。在一个实施例中,该方法进一步包括将提取的信息传输到鉴别器模块的步骤,并且鉴别器模块配置为确定所产生的环境状态解译是否对应于提取的信息。在一个实施例中,传感器包括光学相机。在一个实施例中,传感器包括LIDAR系统。在一个实施例中,传感器包括RADAR系统。在一个实施例中,提供了一种用于训练自主驾驶代理的系统,该系统包括神经网络,该神经网络配置为从驾驶行为的演示中提取信息;深度逆强化学习模块,其配置为从提取的信息中恢复奖励图;发生器模块,其配置为基于提取的信息来产生环境状态解译;以及鉴别器模块,其配置为至少部分地使用所恢复的奖励图来确定所产生的环境状态解译是否对应于与提取的信息相关联的真实环境状态。在一个实施例中,该系统进一步包括显示器,其配置为显示所产生的环境状态解译。在一个实施例中,深度逆强化学习模块配置为基于所产生的环境状态解译来更新奖励图。在实施例中,该系统使用所恢复的奖励图和鉴别器模块来预测驾驶场景的类似人为解译。在实施例中,深度逆强化学习(DIRL)模块从人类驾驶数据日志(其包含环境状态和/或动作/演示)中恢复奖励图。鉴别器模块使用所恢复的奖励图以及真实环境状态来鉴别发生器模块的输出。在实施例中,当没有人为演示时,DIRL模块在运行时/测试时/部署之后使用所恢复的奖励函数(或动机图)来选择策略(其规定在给定感测的环境状态下采取什么动作)。自主驾驶代理使用该策略来发送控制命令和/或致动自主车辆。在一个实施例中,神经网络是深度卷积神经网络。在一个实施例中,深度逆强化学习模块配置为经由深度逆强化学习来恢复奖励图。在一个实施例中,鉴别器模块配置为基于损失或成本函数来迭代地改进对所产生的环境状态解译是否对应于真实环境状态的确定。在一个实施例中,发生器模块配置为基于损失或成本函数来迭代地改进对所产生的环境状态解译是否对应于真实环境状态的确定。在一个实施例中,鉴别器模块进一步配置为确定所产生的环境状态解译是否对应于提取的信息。在一个实施例中,鉴别器模块配置为基于损失或成本函数来迭代地改进对所产生的环境状态解译是否对应于提取的信息的确定。在一个实施例中,传感器包括光学相机。在一个实施例中,传感器包括LIDAR系统。在一个实施例中,传感器包括RADAR系统。在一个实施例中,提供了一种车辆,该车辆包括:传感器,其配置为感测与车辆周围的环境状态的特征有关的信息;神经网络,其配置为从传感器信息中提取信息;经过训练的自主驾驶代理,其配置为基于提取的信息来确定驾驶动作的策略;以及发生器模块,其配置为基于提取的信息来产生环境状态解译。在一个实施例中,车辆进一步包括鉴别器模块,其配置为确定所产生的环境状态解译是否对应于由传感器感测的真实环境状态,其中鉴别器模块进一步配置为存储该确定。在一个实施例中,鉴别器模块配置为在存储器中存储所产生的环境解译以及所产生的环境解译所基于的相关真实环境状态。在一个实施例中,传感器包括光学相机。在一个实施例中,传感器包括LIDAR系统,在一个实施例中,传感器包括RADAR系统。在一个实施例中,神经网络是深度卷积神经网络。附图说明下文将结合以下附图描述示例性实施例,其中相同标号表示相同元件,且其中:图1是说明根据各种实施例的具有自主驾驶代理的自主车辆的功能框图;图2是说明根据各种实施例的可以如何使用专家驾驶演示来训练自主驾驶代理的框图;图3是说明根据各种实施例的训练自主代理的方法的流程图;图4是说明根据各种实施例的可以如何由发生器模块产生环境解译作为对抗训练过程的一部分的示意图;图5是说明根据各种实施例的可以如何将发生器模块和鉴别器模块训练为对手的流程图;图6是说明根据各种实施例训练的自主代理可以如何结合到自主车辆中的框图;图7是说明根据各种实施例训练的自主代理可以如何结合到自主车辆中的框图;并且图8是说明根据各种实施例的用于自主代理的训练方法的流程图。具体实施方式具体实施方式本质上仅仅是示例性的,而不旨在本专利技术的限制应用和用途。另外,不存在被任何前述的

技术介绍

技术实现思路
或具体实施方式中提出的任何明确的或暗示的理论约束的意图。如本文所使用,术语模块是指单独地或呈任何组合的任何硬件、软件、固件、电子控制部件、处理逻辑和/或处理器装置,包括但不限于:专用集成电路(ASIC)、电子电路、处理器(共享、专用或成组)以及执行一个或多个软件或固件程序的存储器、神经网络、组合逻辑电路和/或提供所述功能性的其它合适部件。本公开的实施例在本文可以依据功能和本文档来自技高网
...

【技术保护点】
1.一种训练自主驾驶代理的计算机实施方法,所述方法包括以下步骤:由处理器使用神经网络从驾驶行为的演示中提取信息;由处理器从所述提取的信息中恢复奖励图;将所述提取的信息传输到发生器模块;将与驾驶行为的所述演示相关联的真实环境状态和所述恢复的奖励图传输到鉴别器模块;由处理器使用所述发生器模块从所述提取的信息中产生环境状态解译;由处理器训练所述鉴别器模块以更好地确定所产生的环境状态解译是否对应于所述真实环境状态,同时由处理器训练所述发生器模块以产生所述鉴别器确定对应于所述真实环境状态的改进的环境状态解译。

【技术特征摘要】
2017.09.06 US 15/6966701.一种训练自主驾驶代理的计算机实施方法,所述方法包括以下步骤:由处理器使用神经网络从驾驶行为的演示中提取信息;由处理器从所述提取的信息中恢复奖励图;将所述提取的信息传输到发生器模块;将与驾驶行为的所述演示相关联的真实环境状态和所述恢复的奖励图传输到鉴别器模块;由处理器使用所述发生器模块从所述提取的信息中产生环境状态解译;由处理器训练所述鉴别器模块以更好地确定所产生的环境状态解译是否对应于所述真实环境状态,同时由处理器训练所述发生器模块以产生所述鉴别器确定对应于所述真实环境状态的改进的环境状态解译。2.根据权利要求1所述的方法,其中使用卷积神经网络提取所述提取的信息。3.根据权利要求1所述的方法,其中经由深度逆强化学习模块使用深度逆强化学习来恢复奖励函数。4.根据权利要求1所述的方法,其中使用损失或成本梯度函数来执行所述鉴别器模块的训练。5.根据权利要求1所述的方法,其中使用损失或成本梯度函数来执行所述发生器模块的训练。6.根据权利要求1所述的方法,其中所述传感器包...

【专利技术属性】
技术研发人员:P·帕拉尼萨梅U·P·穆达里戈
申请(专利权)人:通用汽车环球科技运作有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1