用于自主驾驶的基于视觉的样本高效的强化学习框架制造技术

技术编号：22330586 阅读：25 留言：0更新日期：2019-10-19 12:22

本发明专利技术公开了用于自主驾驶的基于视觉的样本高效的强化学习框架。框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。

An efficient reinforcement learning framework based on visual samples for autonomous driving

全部详细技术资料下载

【技术实现步骤摘要】
用于自主驾驶的基于视觉的样本高效的强化学习框架
本专利技术涉及自主驾驶。更具体而言，本专利技术涉及基于视觉的自主驾驶。
技术介绍
传统上，自主驾驶基于规则。一些研究使用基于Q学习或策略梯度的强化学习算法来实现自主驾驶。但是，基于规则的方法不能很好地扩展，而基于Q学习或策略梯度的强化学习方法不是样本高效的，并且由于需要探索大的状态空间而解决起来非常耗时。
技术实现思路
一种框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。在一个方面，一种方法包括利用视觉模型训练用于自主驾驶的强化学习控制器，以及利用该视觉模型部署用于自主驾驶的强化学习控制器。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索，该引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。在一些实施例中，部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该方法还包括通过向驱动机构、制动机构和加速机构中的至少一个发送信号，使用强化学习控制器来自主地驾驶车辆。在另一方面，一种系统包括：非瞬态存储器，用于存储应用，该应用用于：利用视觉模型训练用于自主驾驶的强化学习控制器，并利用...

【技术保护点】
1.一种方法，包括：利用视觉模型训练用于自主驾驶的强化学习控制器；以及利用视觉模型部署用于自主驾驶的强化学习控制器。

【技术特征摘要】
2018.04.02 US 15/943,2231.一种方法，包括：利用视觉模型训练用于自主驾驶的强化学习控制器；以及利用视觉模型部署用于自主驾驶的强化学习控制器。2.如权利要求1所述的方法，其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。3.如权利要求2所述的方法，其中第一方面实现引导策略搜索，所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练能够跨任务实例使用的通用全局策略并限制搜索空间。4.如权利要求2所述的方法，其中部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。5.如权利要求1所述的方法，其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。6.如权利要求1所述的方法，其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。7.如权利要求1所述的方法，还包括通过向驱动机构、制动机构和加速机构中的至少一者发送信号，使用强化学习控制器来自主地驾驶车辆。8.一种系统，包括：非瞬态存储器，用于存储应用，所述应用用于：利用视觉模型训练用于自主驾驶的强化学习控制器；以及利用视觉模型利用用于自主驾驶的强化学习控制器；以及处理器，耦合到所述存储器，所述处理器被配置用于处理所述应用。9.如权利要求8所述的系统，其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。10.如权利要求9所述的系统，其中第一方面实现引导策略搜索，所述引导策略搜索针对任务的特定...

【专利技术属性】
技术研发人员：SH·基亚恩格，刘明昌，
申请(专利权)人：索尼公司，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人