当前位置: 首页 > 专利查询>索尼公司专利>正文

用于自主驾驶的基于视觉的样本高效的强化学习框架制造技术

技术编号:22330586 阅读:25 留言:0更新日期:2019-10-19 12:22
本发明专利技术公开了用于自主驾驶的基于视觉的样本高效的强化学习框架。框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。

An efficient reinforcement learning framework based on visual samples for autonomous driving

【技术实现步骤摘要】
用于自主驾驶的基于视觉的样本高效的强化学习框架
本专利技术涉及自主驾驶。更具体而言,本专利技术涉及基于视觉的自主驾驶。
技术介绍
传统上,自主驾驶基于规则。一些研究使用基于Q学习或策略梯度的强化学习算法来实现自主驾驶。但是,基于规则的方法不能很好地扩展,而基于Q学习或策略梯度的强化学习方法不是样本高效的,并且由于需要探索大的状态空间而解决起来非常耗时。
技术实现思路
一种框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。在一个方面,一种方法包括利用视觉模型训练用于自主驾驶的强化学习控制器,以及利用该视觉模型部署用于自主驾驶的强化学习控制器。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索,该引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。在一些实施例中,部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该方法还包括通过向驱动机构、制动机构和加速机构中的至少一个发送信号,使用强化学习控制器来自主地驾驶车辆。在另一方面,一种系统包括:非瞬态存储器,用于存储应用,该应用用于:利用视觉模型训练用于自主驾驶的强化学习控制器,并利用该视觉模型利用用于自主驾驶的强化学习控制器;以及处理器,耦合到存储器,该处理器被配置用于处理应用。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索,该引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一个发送信号来自主地驾驶车辆。在又一方面,一种车辆包括:一个或多个相机,被配置用于获取视觉信息;以及一个或多个计算设备,被配置用于:利用包括视觉信息的视觉模型训练用于自主驾驶的强化学习控制器,并利用包括视觉信息的视觉模型利用用于自主驾驶的强化学习控制器。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索,该引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一个发送信号来自主地驾驶车辆。附图说明图1图示了根据一些实施例的实现在训练期间用于自主驾驶的基于视觉的强化学习框架的图。图2图示了根据一些实施例的实现在部署期间用于自主驾驶的基于视觉的强化学习框架的图。图3图示了根据一些实施例的实现用于自主驾驶的基于视觉的强化学习框架的方法的流程图。图4图示了根据一些实施例的被配置为实现基于视觉的强化学习框架的示例性计算设备的框图。图5图示了根据一些实施例的被配置用于实现基于视觉的强化学习框架的车辆的图。具体实施方式本文描述了基于用于自主驾驶的引导策略搜索结合视觉(例如,图像)和样本高效的强化学习的框架。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。其动机是成为样本高效的,以节省时间并避免使机器人疲劳或受损。该框架基于用于自主驾驶的引导策略搜索结合视觉和强化学习。引导策略搜索将有希望(promising)区域内的搜索空间限制为样本高效的。使用一个或多个图像/视频处理算法处理诸如使用相机获取的信息的视觉输入,然后基于处理算法,能够进行学习。强化学习类似于人类如何通过使用试错(trialanderror)奖励正面行为和惩罚负面行为来学习。此外,通过利用神经网络的深度学习,强化学习从没有人工设计特征的视觉输入中学习。引导策略搜索通过针对任务的特定实例迭代地优化一组本地策略来辅助学习,并使用策略来训练可跨任务实例使用的通用全局策略。图1图示了根据一些实施例的实现在训练期间用于自主驾驶的基于视觉的强化学习框架的图。车辆相机100捕获用于训练和生长视觉模型102的图像/视频。视觉模型102用于检测、识别和分类所捕获的图像/视频内的物体,诸如人、树、其它车辆和任何其它物体/驾驶状态。在一些实施例中,使用LIDAR和/或三维内容获取来捕获和存储视觉信息。在一些实施例中,捕获音频并将其用于辅助训练视觉模型。取决于实现,视觉模型能够包括图像、视频和/或音频、计算/数字信息、深度图信息、分类信息、标签信息、任何其它信息和/或其任何组合。来自视觉模型102的输出进入强化学习控制器104,强化学习控制器104也接收标记图像106,标记图像106包括完全观察到的图像的状态。在一些实施例中,标记图像106包括部分观察到的图像的状态。视觉模型输出能够以任何格式并且包括任何类型的输出,诸如提取出的用于驾驶的状态。标记图像106能够包括计算/数字信息、深度图信息、分类信息、标签信息、任何其它信息和/或其任何组合。强化学习控制器104利用标记图像106和视觉模型输出来强化学习。强化学习控制器104在训练时利用两个方面。第一方面,例如,教师方面,提供在做出决定时诸如要探索的有希望的搜索空间的引导。在一些实施例中,强化学习包括实现引导策略搜索,该引导策略搜索通过针对任务的特定实例迭代地优化一组本地策略来辅助学习,并使用策略来训练可跨任务实例使用的通用全局策略并将有希望区域内的搜索空间限制为样本高效的。例如,当接近物体(包括击中物体)时不是利用做什么的所有选项,而是利用引导使得排除包括加速和击中物体的选项,并且关注更可能的选项,诸如制动、减速和避免物体。第二方面,例如,学习方面,基于视觉信息、采取的选项(例如,停止、加速、转弯)以及选项的结果(例如,击中物体-负面结果,避免物体–正面结果)来学习如何驾驶/反应。强化学习控制器104用于通过向车辆控制器提供信号(诸如触发制动、加速、转向、发信号通知和/或任何其它车辆控制特征)来自主地控制车辆108。学习能够使用模拟/模拟器和/或经由实际驾驶来进行。图2图示了根据一些实施例的实现在部署期间用于自主驾驶的基于视觉的强化学习框架的图。车辆相机100捕获用于训练和生长视觉模型102的图像/视频。视觉模型102用于检测、识别和分类所捕获的图像/视频内的物体,诸如人本文档来自技高网...

【技术保护点】
1.一种方法,包括:利用视觉模型训练用于自主驾驶的强化学习控制器;以及利用视觉模型部署用于自主驾驶的强化学习控制器。

【技术特征摘要】
2018.04.02 US 15/943,2231.一种方法,包括:利用视觉模型训练用于自主驾驶的强化学习控制器;以及利用视觉模型部署用于自主驾驶的强化学习控制器。2.如权利要求1所述的方法,其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。3.如权利要求2所述的方法,其中第一方面实现引导策略搜索,所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练能够跨任务实例使用的通用全局策略并限制搜索空间。4.如权利要求2所述的方法,其中部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。5.如权利要求1所述的方法,其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。6.如权利要求1所述的方法,其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。7.如权利要求1所述的方法,还包括通过向驱动机构、制动机构和加速机构中的至少一者发送信号,使用强化学习控制器来自主地驾驶车辆。8.一种系统,包括:非瞬态存储器,用于存储应用,所述应用用于:利用视觉模型训练用于自主驾驶的强化学习控制器;以及利用视觉模型利用用于自主驾驶的强化学习控制器;以及处理器,耦合到所述存储器,所述处理器被配置用于处理所述应用。9.如权利要求8所述的系统,其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。10.如权利要求9所述的系统,其中第一方面实现引导策略搜索,所述引导策略搜索针对任务的特定...

【专利技术属性】
技术研发人员:SH·基亚恩格刘明昌
申请(专利权)人:索尼公司
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1