用于自主驾驶应用的无监督学习代理制造技术

技术编号：20566214 阅读：34 留言：0更新日期：2019-03-14 09:06

提供了用于控制车辆的系统和方法。在一个实施例中，提供了一种包括训练自主驾驶代理的计算机实施方法，该方法包括以下步骤：由处理器使用神经网络从驾驶行为的演示中提取信息；将提取的信息传输到发生器模块；将与驾驶行为的演示相关联的真实环境状态传输到鉴别器模块；由处理器使用发生器模块从提取的信息中产生环境状态解译；由处理器训练鉴别器模块以更好地确定所产生的环境状态解译是否对应于真实环境状态，同时由处理器训练发生器模块以产生鉴别器确定对应于真实环境状态的改进的环境状态解译；并且由处理器使用从经过训练的发生器模块中产生的环境状态解译来恢复奖励图。

Unsupervised learning agent for autonomous driving applications

A system and method for controlling a vehicle are provided. In one embodiment, a computer implementation method including training autonomous driving agent is provided, which includes the following steps: extracting information from driving behavior demonstration by processor using neural network; transferring the extracted information to generator module; transferring the real environment state associated with driving behavior demonstration to discriminator module; and sending it by processor using The generator module generates the environment state interpretation from the extracted information; the processor trains the discriminator module to better determine whether the generated environment state interpretation corresponds to the real environment state, while the processor trains the generator module to generate the discriminator to determine the improved environment state interpretation corresponding to the real environment state; and the processor uses the improved environment state interpretation from the trained occurrence. The environment state generated in the module is interpreted to restore the reward map.

全部详细技术资料下载

【技术实现步骤摘要】
用于自主驾驶应用的无监督学习代理引言本公开总体上涉及自主车辆，并且更具体地涉及用于自主车辆驾驶代理的无监督训练的系统和方法。
技术介绍
本节提供与本公开有关的背景信息，该背景信息不一定是现有技术。自主车辆是能够感测其环境并且以很少或不需要用户输入进行导航的车辆。自主车辆使用诸如雷达、激光雷达、图像传感器等感测装置来感测其环境。自主车辆系统进一步使用来自全球定位系统(GPS)技术、导航系统、车对车通信、车对基础设施技术和/或线控驱动系统的信息来对车辆进行导航。车辆自动化已经被分类为从零(对应于全人为控制的非自动化)到五(对应于无人为控制的全自动化)的范围中的数值等级。各种自动驾驶员辅助系统(诸如巡航控制、自适应巡航控制以及停放辅助系统)对应于较低自动化等级，而真正的“无人驾驶”车辆对应于较高自动化等级。驾驶车辆需要来自驾驶员的大量技能、经验以及感知。因此，必须训练自主代理以便能够匹配或者甚至超越人类的驾驶能力。因此，与人类驾驶员相比，期望获得训练自主驾驶代理以进行等效或改进的驾驶决策的方法。另外，期望获得训练自主驾驶代理的方法，该方法在很大程度上是无监督的，并且不需要对训练数据进行大量标记。还期望恢复关于为什么自主驾驶代理响应于特定环境状态而选择特定驾驶动作的推理(潜在动机)。另外，从以下结合附图和前面的
及
技术介绍
进行的实施方式和所附权利要求书中将更清楚地明白本专利技术的其它期望特征和特性。
技术实现思路
提供了用于控制车辆的系统和方法。在一个实施例中，提供了一种训练自主驾驶代理的计算机实施方法，该方法包括以下步骤：由处理器使用神经网络从驾驶行为的演示中提取信...

【技术保护点】
1.一种训练自主驾驶代理的计算机实施方法，所述方法包括以下步骤：由处理器使用神经网络从驾驶行为的演示中提取信息；由处理器从所述提取的信息中恢复奖励图；将所述提取的信息传输到发生器模块；将与驾驶行为的所述演示相关联的真实环境状态和所述恢复的奖励图传输到鉴别器模块；由处理器使用所述发生器模块从所述提取的信息中产生环境状态解译；由处理器训练所述鉴别器模块以更好地确定所产生的环境状态解译是否对应于所述真实环境状态，同时由处理器训练所述发生器模块以产生所述鉴别器确定对应于所述真实环境状态的改进的环境状态解译。

【技术特征摘要】
2017.09.06 US 15/6966701.一种训练自主驾驶代理的计算机实施方法，所述方法包括以下步骤：由处理器使用神经网络从驾驶行为的演示中提取信息；由处理器从所述提取的信息中恢复奖励图；将所述提取的信息传输到发生器模块；将与驾驶行为的所述演示相关联的真实环境状态和所述恢复的奖励图传输到鉴别器模块；由处理器使用所述发生器模块从所述提取的信息中产生环境状态解译；由处理器训练所述鉴别器模块以更好地确定所产生的环境状态解译是否对应于所述真实环境状态，同时由处理器训练所述发生器模块以产生所述鉴别器确定对应于所述真实环境状态的改进的环境状态解译。2.根据权利要求1所述的方法，其中使用卷积神经网络提取所述提取的信息。3.根据权利要求1所述的方法，其中经由深度逆强化学习模块使用深度逆强化学习来恢复奖励函数。4.根据权利要求1所述的方法，其中使用损失或成本梯度函数来执行所述鉴别器模块的训练。5.根据权利要求1所述的方法，其中使用损失或成本梯度函数来执行所述发生器模块的训练。6.根据权利要求1所述的方法，其中所述传感器包...

【专利技术属性】
技术研发人员：P·帕拉尼萨梅，U·P·穆达里戈，
申请(专利权)人：通用汽车环球科技运作有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人