用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置制造方法及图纸

技术编号:22134775 阅读:26 留言:0更新日期:2019-09-18 08:35
本申请一般性地涉及用于生成用于控制自主车辆的动作策略的方法和装置。特别地,系统执行深度学习算法以便确定动作策略和自动生成的课程系统以确定一些越来越困难的任务以便改进动作策略。

A Method and Device for Reinforcement Learning of Autonomous Vehicles Based on Auto-generated Course Sequences

【技术实现步骤摘要】
用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置
本公开一般涉及对自主机动车辆控制系统编程。更具体地,本公开的方面涉及用于行为规划的系统、方法和设备,其使用在复杂环境中基于自动生成课程序列的自主车辆的强化学习。
技术介绍
现代车辆的操作变得更加自动化,即能够以越来越少的驾驶员干预提供驾驶控制。车辆自动化被分类为数字级别,范围从零(对应于没有自动化与全人为控制)到五(对应于完全自动化,无人为控制)。各种自动驾驶辅助系统,例如巡航控制、自适应巡航控制和停车辅助系统对应于较低的自动化水平,而真正的“无人驾驶”车辆对应于较高的自动化水平。由于安全问题,适当的情况意识对于自主驾驶至关重要。即使希望将所有可用信息放入自主驾驶决策过程中;但是,对于实际实施,系统的输入数据应该是有限的和可管理的;因此,它需要精心设计,以提高决策效率和充分性。自主车辆通常必须生成数据结构以感知车辆周围的情况。通过安装在自主驾驶车辆上的传感器,将大量信息传递给系统;因此,对安全驾驶的所有感知数据进行有效分析至关重要。对于自主车辆和人类驾驶员两者来说,密集的城市环境及其对应的大量信息都尤其困难。例如,如何接近然后穿越城市交叉路口是一个困难的问题,并且是大多数交通事故发生的情况。这种高事故率的主要原因在于驾驶员需要注意的大量外部因素。在接近停车标志时,驾驶员需要注意前方的车辆,以避免距离太近或太远。同时,驾驶员需要准确地停在停车线上,这样它就不会阻挡交叉路口或撞到从其他方向接近的其他车辆。随后,驾驶员需要做出正确的决定在何时开始穿越交叉路口。新驾驶员可能难以知道何时穿越,甚至一些有经验的驾驶员可能会错过重要的交通信息。因此,交叉路口的自主驾驶行为可能非常有益。然而,为了设计一种可靠的规划算法,允许自驾驶车辆做出安全决策,工程师需要具有足够的洞察力,以预见每一种可能的不良情况。在复杂的城市场景中不可预测的环境变化和频繁的人机交互将影响算法并使得处理各种规划任务变得极其困难,例如前进是否安全,或前车的适当相对距离是多少。交叉路口穿越问题的先前基于距离的算法总是包括一些调谐参数来处理不同的场景。调谐这些参数是费力的,因为算法不容易适应各种环境情况。这些算法还需要设计大量基于距离的规则来处理不同的情况。期望感知自主车辆周围的情况,其具有降低的计算复杂性,而不会丢失关键细节以改进导航和控制决策。在该
技术介绍
部分中公开的上述信息仅用于增强对本专利技术背景的理解,因此其可能包含不构成本国对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本文公开了用于提供自主车辆控制的自动车辆控制系统训练系统和相关控制逻辑,用于制造这些系统的方法和用于操作这种系统的方法,以及配备有车载控制系统的机动车辆。作为示例而非限制,提出了一种具有车载车辆控制学习和控制系统的汽车。根据本专利技术的一个方面,一种训练车辆控制系统的方法,包括确定最终任务,从第一车辆传感器接收输入,响应于最终任务以及输入确定第一任务和第二任务,其中第二任务具有比第一任务更高的难度,训练代理执行第一任务以便生成最大化第一奖励的动作策略,并且响应于最大化第二奖励的动作策略执行第二任务,并响应于动作策略控制车辆执行第二任务。根据本专利技术的另一方面,一种用于装置的装置,包括用于检测输入的传感器,用于确定最终任务的处理器,所述处理器还可操作以响应最终任务和输入确定第一任务和第二任务,其中第二任务具有比第一任务更高的难度,执行第一任务以便生成最大化第一奖励的动作策略,并且响应于最大化第二奖励的动作策略来执行第二任务,响应于动作策略产生控制信号,并响应控制信号控制车辆。通过以下结合附图对优选实施例的详细描述,本公开的上述优点和其他优点和特征将变得显而易见。附图说明本专利技术的上述和其他特征和优点以及实现它们的方式将变得更加明显,并且通过参考下面结合附图对本专利技术实施例的描述,将更好地理解本专利技术,其中:图1示出了根据示范性实施例的包括用于机动车辆的移动车辆通信和控制系统的操作环境。图2示出了根据示范性实施例的包括多个不同控制系统的ADS,用于确定车辆附近的检测到的特征或物体的存在、位置、分类和路径。图3示出了示范性框图,示出了根据另一示范性实施例的用于基于自动生成的课程序列的自主车辆的强化学习的系统的示范性实施方式。图4示出了示范性流程图,示出了用于基于自动生成的课程序列的自主车辆的强化学习的方法的示范性实施方式。本文阐述的示例说明了本专利技术的优选实施例,并且这些示例不应被解释为以任何方式限制本专利技术的范围。具体实施方式本文描述了本公开的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其他实施例可以采用各种和替代形式。这些图不一定按比例缩放;某些功能可能会被夸大或最小化,以显示特定部件的详细信息。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是代表性的。参考任何一个附图示出和描述的各种特征可以与一个或多个其他附图中示出的特征组合,以产生未明确示出或描述的实施例。所示特征的组合提供了典型应用的代表性实施例。然而,对于特定应用或实施方式,可能需要与本公开的教导一致的特征的各种组合和修改。图1示意性地示出了包括用于机动车辆12的移动车辆通信和控制系统10的操作环境。用于车辆12的通信和控制系统10通常包括一个或多个无线载波系统60、陆地通信网络62、计算机64、联网无线设备57、包括但不限于智能手机、平板电脑或可穿戴设备例如手表、以及远程访问中心78。在图1中示意性地示出的车辆12包括推进系统13,推进系统13在各种实施例中可包括内燃发动机,诸如牵引马达的电机,和/或燃料电池推进系统。在所示实施例中,车辆12被描绘为乘用车,但是应当理解,包括摩托车、卡车、运动型多功能车(SUV)、休闲车(RV)、船舶、飞机等的任何其他车辆也可以使用。车辆12还包括变速器14,变速器14配置为根据可选择的速比将来自推进系统13的动力传递到多个车轮15。根据各种实施例,变速器14可包括步进比自动变速器、无级变速器或其他适当的变速器。车辆12还包括车轮制动器17,车轮制动器17配置为向车轮15提供制动转矩。在各种实施例中,车轮制动器17可包括摩擦制动器、再生制动系统例如电机、和/或其他适当的制动系统。车辆12另外还包括转向系统16。虽然为了说明的目的而描绘为包括方向盘,但是在本公开的范围内预期的一些实施例中,转向系统16可以不包括方向盘。车辆12包括无线通信系统28,其配置成与其他车辆(“V2V”)和/或基础设施(“V2I”)无线通信。在示范性实施例中,无线通信系统28被配置为使用IEEE802.11标准或通过使用蜂窝数据通信经由无线局域网(WLAN)进行通信。然而,诸如专用短程通信(DSRC)信道的附加或替代通信方法也被认为在本公开的范围内。DSRC信道是指专为汽车应用而设计的单向或双向短程至中程无线通信信道以及对应的协议和标准集。推进系统13、变速器14、转向系统16和车轮制动器17与至少一个控制器22通信或在其控制下。虽然为了说明的目的描绘为单个单元,但是控制器22可以另外包括一个或多个其他控制器,统称为“控制器”。控制器22可包括与各种类型的计算机可读存储设备或介质通信的微处理器,例如中央处理单元(CPU)或图本文档来自技高网
...

【技术保护点】
1.一种训练车辆控制系统的方法,包括:‑确定最终任务;‑从第一辆车辆传感器接收输入;‑响应于最终任务和输入确定第一任务和第二任务,其中所述第二任务具有比所述第一任务更高的难度;‑培训代理人执行所述第一任务,以便生成最大化第一奖励的动作策略,并响应于最大化第二奖励的动作策略执行所述第二任务;以及‑响应于所述动作策略控制车辆执行所述第二任务。

【技术特征摘要】
2018.03.08 US 15/9154191.一种训练车辆控制系统的方法,包括:-确定最终任务;-从第一辆车辆传感器接收输入;-响应于最终任务和输入确定第一任务和第二任务,其中所述第二任务具有比所述第一任务更高的难度;-培训代理人执行所述第一任务,以便生成最大化第一奖励的动作策略,并响应于最大化第二奖励的动作策略执行所述第二任务;以及-响应于所述动作策略控制车辆执行所述第二任务。2.如权利要求1所述的方法,其中使用课程序列训练代理以生成最优动作策略。3.如权利要求1所述的方法,其中所述转换被存储到重放缓冲区。4.如权利要求1所述的方法,其中所述第二任务被执行多次,并且其中基于所述第二任务的执行进行评估,并且其中所述评估存储在重放缓冲区中。5.如权利要求1所述的方法,其中评估网络用于响应于第二任务的执行来训练动作策...

【专利技术属性】
技术研发人员:P·帕拉尼萨梅乔智茜U·P·穆达里格K·默埃灵J·M·多兰
申请(专利权)人:通用汽车环球科技运作有限责任公司卡内基梅隆大学
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1