提高仿真环境中深度强化学习算法训练效率的方法及系统技术方案

技术编号:24088088 阅读:69 留言:0更新日期:2020-05-09 06:53
本发明专利技术公开了提高仿真环境中深度强化学习算法训练效率的方法及系统,包括以下步骤,在仿真环境中定义符合分解场景要求的城镇道路地图;提取所述地图中的道路先验信息和提取档位先验信息;利用卷积神经网络中提取车载相机的图像特征序列;将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列;所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列;减少所述深度强化学习算法模型需要输出的控制信息;强化所述学习算法模型训练。本发明专利技术的有益效果:将场景进行分解,使复杂问题简单化;加入先验知识,减少训练时间。

Method and system for improving the training efficiency of deep reinforcement learning algorithm in simulation environment

【技术实现步骤摘要】
提高仿真环境中深度强化学习算法训练效率的方法及系统
本专利技术涉及强化学习应用在自动驾驶领域的
,尤其涉及一种提高仿真环境中深度强化学习算法训练效率的方法和提高仿真环境中深度强化学习算法训练效率的系统。
技术介绍
近年来随着国家经济、社会的发展,汽车在国民的生活中的作用愈发重要,但随之而来的交通事故日益严重,给行人、乘客、司机带来较大的隐患。车辆的主被动安全日益受到重视。人工智能技术近些年的飞速发展,给人们的生活带来了很大的便利,同时也在改变人们的生活。使用人工智能技术实现车辆的自动驾驶,也成为当前研究中的重点方向。目前自动驾驶行业中,成功实现车辆自动驾驶的技术中,主要是通过机器学习和传统的自动驾驶技术的深度结合来实现,取得了惊人的成绩,但其依赖于高精度的地图导航信息、高精度的雷达系统、以及其他成本较高的传感器设备,导致目前的技术落地成本较高。强化学习作为人工智能的重要组成部分,通过不断的试错来进行自主学习,与人类的进化类似,理论上可以达到人类智能的程度,人们将其作为人工智能的一个重点研究方向进行研究,所以将其在自动驾驶领域的应用也是具有相当的潜力。
技术实现思路
本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。鉴于上述现有存在的问题,提出了本专利技术。因此,本专利技术解决的一个技术问题是:提出一种提高仿真环境中深度强化学习算法训练效率的方法,将复杂问题简化,避免深度强化学习算法模型学习车辆在各种情况下的自动驾驶。为解决上述技术问题,本专利技术提供如下技术方案:一种提高仿真环境中深度强化学习算法训练效率的方法,包括以下步骤,在仿真环境中定义符合分解场景要求的城镇道路地图;提取所述地图中的道路先验信息和提取档位先验信息;利用卷积神经网络中提取车载相机的图像特征序列;将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列;所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列;减少所述深度强化学习算法模型需要输出的控制信息;强化所述学习算法模型训练。作为本专利技术所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案,其中:所述道路先验信息和提取档位先验信息包括,根据所述仿真环境建议的导航信息点判断当前道路的类型;判断目标车速所需要的变速箱档位。作为本专利技术所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案,其中:所述符合分解场景要求包括,车辆、行人数量较少,且行人无随意横穿马路行为;道路类型为平坦直行道,存在90°转弯弯道,不存在崎岖弯路;道路能够实现90km以上的车速行驶。作为本专利技术所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案,其中:所述判断当前道路的类型为直行道路包括,判断当前道路的类型是直行道路、转弯道路;将道路类型转换为离散数字量;根据仿真环境提供的导航信息点,判断下一个导航点和当前导航点的指向偏差是否在设定的阈值范围内;在阈值范围内判断为直行道路,大于阈值范围判断为转弯道路;将道路类型进行独热编码,其中直行道路为[1,0]、转弯道路为[0,1]、无法判断类型道路[0,0]。作为本专利技术所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案,其中:所述判断目标车速所需要的变速箱档位并将其转化为数字量,其中数字1~9分别代表1档~9档、0代表空挡和-1代表倒车档。作为本专利技术所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案,其中:所述提取车载相机的图像特征序列包括,使用CNN神经网络提取车载相机的图像特征序列;在所述图像特征值序列尾部加入所述道路先验信息的值构成新特征值序列;新特征值序列尾部加入档位先验信息,构成最终特征值序列。作为本专利技术所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案,其中:所述减少强化学习算法模型的输出信息包括,排除定义时需要避开障碍物、紧急刹车和自动限速的场景;算法模型只输出油门和方向盘控制信息,只对油门和方向盘进行控制。作为本专利技术所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案,其中:使用所述最终特征值序列训练强化学习算法模型输出的控制信息包括,定义合适的强化学习算法模型;使用Actor-Critic组合的算法模型;将所述最终特征值序列作为强化学习算法模型的输入信息,训练的输出的控制信息;利用验证的结果,调整算法模型的关键参数。作为本专利技术所述的提高仿真环境中深度强化学习算法训练效率的方法的一种优选方案,其中:所述关键参数包括学习率、单次同时训练数量、训练次数和奖励函数。本专利技术解决的另一个技术问题是:提出一种提高仿真环境中深度强化学习算法训练效率的方法,将复杂问题简化,避免深度强化学习算法模型学习车辆在各种情况下的自动驾驶。为解决上述技术问题,本专利技术提供如下技术方案:一种提高仿真环境中深度强化学习算法训练效率的系统,包括仿真模块、提取模块、算法模型模块;所述仿真模块用于提供仿真环境,通过所述仿真环境定义符合分解场景要求的城镇道路地图;所述提取模块包括信息提取模块和序列提取模块,所述信息提取模块用于提取所述地图中的道路先验信息和提取档位先验信息,所述序列提取模块用于提取车载相机的图像特征序列;所述算法模型模块用于输出控制信息,并通过所述提取模块提取的道路先验信息和提取档位先验信息结合车载相机的图像特征序列进行模型的训练和参数优化本专利技术的有益效果:将车辆在仿真环境中的自动行驶场景进行分解,使用深度强化学习模型只学习其中简单的场景需求,避免出现使用强化学习算法针对整个自动驾驶情况,使复杂问题简单化,使得强化学习可以在自动驾驶领域中进行落地;加入先验知识,避免使用纯强化学习模型从零开始学习过于基础的信息,可以提高训练成功率,同时减少训练时间。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:图1为本专利技术第一种实施例所述提高仿真环境中深度强化学习算法训练效率方法的整体流程示意图;图2为本专利技术第一种实施例所述采用提高仿真环境中深度强化学习算法训练效率方法的效果示意图;图3为本专利技术第一种实施例所述未采用提高仿真环境中深度强化学习算法训练效率方法的效果示意图;图4为本专利技术第一种实施例所述提高仿真环境中深度强化学习算法训练效率的系统的整体原理结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本专利技术的具体实施方式做详细的说明,显然所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域本文档来自技高网...

【技术保护点】
1.一种提高仿真环境中深度强化学习算法训练效率的方法,其特征在于:包括以下步骤,/n在仿真环境中定义符合分解场景要求的城镇道路地图;/n提取所述地图中的道路先验信息和提取档位先验信息;/n利用卷积神经网络中提取车载相机的图像特征序列;/n将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列;/n所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列;/n减少所述深度强化学习算法模型需要输出的控制信息;/n强化所述学习算法模型训练后用于加快仿真平台中自动驾驶的模拟进展。/n

【技术特征摘要】
1.一种提高仿真环境中深度强化学习算法训练效率的方法,其特征在于:包括以下步骤,
在仿真环境中定义符合分解场景要求的城镇道路地图;
提取所述地图中的道路先验信息和提取档位先验信息;
利用卷积神经网络中提取车载相机的图像特征序列;
将提取的所述先验信息加入到所述车载相机图像特征值序列构成最终特征值序列;
所述新特征值序列作为深度强化学习算法模型训练使用的特征值序列;
减少所述深度强化学习算法模型需要输出的控制信息;
强化所述学习算法模型训练后用于加快仿真平台中自动驾驶的模拟进展。


2.如权利要求1所述的提高仿真环境中深度强化学习算法训练效率的方法,其特征在于:所述道路先验信息和提取档位先验信息分别包括,
根据所述仿真环境建议的导航信息点判断当前道路的类型;
判断目标车速所需要的变速箱档位。


3.如权利要求1或2所述的提高仿真环境中深度强化学习算法训练效率的方法,其特征在于:所述符合分解场景要求包括,
车辆、行人数量较少,且行人无随意横穿马路行为;
道路类型为平坦直行道,存在90°转弯弯道,不存在崎岖弯路;
道路能够实现90km以上的车速行驶。


4.如权利要求3所述的提高仿真环境中深度强化学习算法训练效率的方法,其特征在于:所述判断当前道路的类型为直行道路包括,
判断当前道路的类型是直行道路、转弯道路;
将道路类型转换为离散数字量;
根据仿真环境提供的导航信息点,判断下一个导航点和当前导航点的指向偏差是否在设定的阈值范围内;
在阈值范围内判断为直行道路,大于阈值范围判断为转弯道路;
将道路类型进行独热编码,其中直行道路为[1,0]、转弯道路为[0,1]、无法判断类型道路[0,0]。


5.如权利要求4所述的提高仿真环境中深度强化学习算法训练效率的方法,其特征在于:所述判断目标车速所需要的变速箱档位并将其转化为数字量,其中数字1~9分别代表1档~9档、0代表空挡和-1代表倒车档。
...

【专利技术属性】
技术研发人员:董舒
申请(专利权)人:的卢技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1