提高仿真环境中深度强化学习算法训练效率的方法及系统技术方案

技术编号：24088088 阅读：69 留言：0更新日期：2020-05-09 06:53

本发明专利技术公开了提高仿真环境中深度强化学习算法训练效率的方法及系统，包括以下步骤，在仿真环境中定义符合分解场景要求的城镇道路地图；提取所述地图中的道路先验信息和提取档位先验信息；利用卷积神经网络中提取车载相机的图像特征序列；将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列；所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列；减少所述深度强化学习算法模型需要输出的控制信息；强化所述学习算法模型训练。本发明专利技术的有益效果：将场景进行分解，使复杂问题简单化；加入先验知识，减少训练时间。

Method and system for improving the training efficiency of deep reinforcement learning algorithm in simulation environment

全部详细技术资料下载

【技术实现步骤摘要】
提高仿真环境中深度强化学习算法训练效率的方法及系统
本专利技术涉及强化学习应用在自动驾驶领域的
，尤其涉及一种提高仿真环境中深度强化学习算法训练效率的方法和提高仿真环境中深度强化学习算法训练效率的系统。
技术介绍
近年来随着国家经济、社会的发展，汽车在国民的生活中的作用愈发重要，但随之而来的交通事故日益严重，给行人、乘客、司机带来较大的隐患。车辆的主被动安全日益受到重视。人工智能技术近些年的飞速发展，给人们的生活带来了很大的便利，同时也在改变人们的生活。使用人工智能技术实现车辆的自动驾驶，也成为当前研究中的重点方向。目前自动驾驶行业中，成功实现车辆自动驾驶的技术中，主要是通过机器学习和传统的自动驾驶技术的深度结合来实现，取得了惊人的成绩，但其依赖于高精度的地图导航信息、高精度的雷达系统、以及其他成本较高的传感器设备，导致目前的技术落地成本较高。强化学习作为人工智能的重要组成部分，通过不断的试错来进行自主学习，与人类的进化类似，理论上可以达到人类智能的程度，人们将其作为人工智能的一个重点研究方向进行研究，所以将其在自动驾驶领域的应用也是具有相当的潜力。
技术实现思路
本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊，而这种简化或省略不能用于限制本专利技术的范围。鉴于上述现有存在的问题，提出了本专利技术。因此，本专利技术解决的一个...

【技术保护点】
1.一种提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：包括以下步骤，/n在仿真环境中定义符合分解场景要求的城镇道路地图；/n提取所述地图中的道路先验信息和提取档位先验信息；/n利用卷积神经网络中提取车载相机的图像特征序列；/n将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列；/n所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列；/n减少所述深度强化学习算法模型需要输出的控制信息；/n强化所述学习算法模型训练后用于加快仿真平台中自动驾驶的模拟进展。/n

【技术特征摘要】
1.一种提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：包括以下步骤，
在仿真环境中定义符合分解场景要求的城镇道路地图；
提取所述地图中的道路先验信息和提取档位先验信息；
利用卷积神经网络中提取车载相机的图像特征序列；
将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列；
所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列；
减少所述深度强化学习算法模型需要输出的控制信息；
强化所述学习算法模型训练后用于加快仿真平台中自动驾驶的模拟进展。

2.如权利要求1所述的提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：所述道路先验信息和提取档位先验信息分别包括，
根据所述仿真环境建议的导航信息点判断当前道路的类型；
判断目标车速所需要的变速箱档位。

3.如权利要求1或2所述的提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：所述符合分解场景要求包括，
车辆、行人数量较少，且行人无随意横穿马路行为；
道路类型为平坦直行道，存在90°转弯弯道，不存在崎岖弯路；
道路能够实现90km以上的车速行驶。

4.如权利要求3所述的提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：所述判断当前道路的类型为直行道路包括，
判断当前道路的类型是直行道路、转弯道路；
将道路类型转换为离散数字量；
根据仿真环境提供的导航信息点，判断下一个导航点和当前导航点的指向偏差是否在设定的阈值范围内；
在阈值范围内判断为直行道路，大于阈值范围判断为转弯道路；
将道路类型进行独热编码，其中直行道路为[1,0]、转弯道路为[0,1]、无法判断类型道路[0,0]。

5.如权利要求4所述的提高仿真环境中深度强化学习算法训练效率的方法，其特征在于：所述判断目标车速所需要的变速箱档位并将其转化为数字量，其中数字1～9分别代表1档～9档、0代表空挡和-1代表倒车档。
...

【专利技术属性】
技术研发人员：董舒，
申请(专利权)人：的卢技术有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人