基于强化学习型的方法及系统技术方案

技术编号:21342651 阅读:34 留言:0更新日期:2019-06-13 22:10
本发明专利技术公开了一种基于强化学习型的方法及系统,通过获取车辆驾驶行为数据及车辆当前位置信息,基于预学习驾驶轨迹数据,调整车辆自动驾驶行为,实现车辆的自动控制,通过对驾驶行为进行精准聚类,提高车辆自动驾驶执行精度,提高自动驾驶事故应急管理,有效减少事故的发生。另外,通过将驾驶行为数据实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令,使远程控制人员可以在车辆遇到紧急情况时远程遥控车辆驾驶行为,使车辆自动驾驶更加安全可靠。本发明专利技术涉及机械电子与人工智能技术领域。

Method and System Based on Reinforcement Learning

The invention discloses a method and system based on reinforcement learning. By acquiring the data of vehicle driving behavior and the current position information of vehicle, adjusting the automatic driving behavior of vehicle based on pre-learning driving trajectory data, the automatic control of vehicle is realized. By accurately clustering the driving behavior, the precision of vehicle automatic driving execution is improved, and the emergency management of automatic driving accident is improved. To effectively reduce the occurrence of accidents. In addition, by sending the driving behavior data to the remote control terminal in real time, when the vehicle is in a mismatched state, the remote control terminal receives the instructions to adjust the driving behavior of the vehicle, so that the remote control personnel can remotely control the driving behavior of the vehicle in case of an emergency, so that the vehicle can drive safely and reliably. The invention relates to the technical field of mechanical electronics and artificial intelligence.

【技术实现步骤摘要】
基于强化学习型的方法及系统
本专利技术涉及机械电子与人工智能
,尤其涉及一种基于强化学习型的方法及系统。
技术介绍
复分数方差即复数分数方差。随着社会的进步,我国居民生活水平不断提高,汽车已成为我们不能缺少的重要交通工具。由于任意场景的自动驾驶环境相对复杂,车毁人亡的交通事故被告纠纷较大,需要有云端智能的协助,形成共生自动驾驶的架构,特殊场景的智能援助作业对事故库管理有非常高的实时性要求,作为政府部门事故库管理人员、运营商自动驾驶随车安全员,行业协会远程监督员和其它保险公司流动评估人员应能够与事故库调度室及时取得语音或非语音联系,将事故库一线的各种情况图文并茂的共享,实现智能援助过程统一指挥统一调度。虽然工程师对事故库安全都非常重视,但事故的发生是不确定性的,事故发生前必须依据当时情况,采取果断的快速有组织的反应措施进行处理,对共生自动驾驶数据进行全方位应急调用。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的是提供一种基于强化学习型的方法及系统,提高自动驾驶事故应急管理,有效减少事故的发生。本专利技术所采用的技术方案是:一种基于强化学习型的方法,所述方法包括:获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。作为上述方案的进一步改进,所述获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶速度具体包括:采集当前车辆加速度,基于复分数模型计算车辆加速度的复分数方差,判断车辆加速度是否超过加速度预设阈值,若是,则锁定当前车辆加速度,所述车辆加速度包括油门加速度、方向盘加速度和刹车加速度。作为上述方案的进一步改进,所述获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为具体包括:获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。作为上述方案的进一步改进,所述将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库具体包括:将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。作为上述方案的进一步改进,所述方法还包括将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。一种基于强化学习型的系统,包括:存储模块,用于获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;锁定模块,用于获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;调整模块,用于获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;聚类模块,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。作为上述方案的进一步改进,所述调整模块具体包括:获取单元,用于获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;匹配调整单元,用于根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。作为上述方案的进一步改进,所述聚类模块具体包括:学习单元,用于将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;记分单元,用于对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;聚类存储单元,用于根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数据库。作为上述方案的进一步改进,所述系统还包括:发送接收模块,用于将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。本专利技术的有益效果是:一种基于强化学习型的方法及系统,通过获取车辆驾驶行为数据及车辆当前位置信息,基于预学习驾驶轨迹数据,调整车辆自动驾驶行为,实现车辆的自动控制,通过对驾驶行为进行精准聚类,提高车辆自动驾驶执行精度,提高自动驾驶事故应急管理,有效减少事故的发生。另外,通过将驾驶行为数据实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令,使远程控制人员可以在车辆遇到紧急情况时远程遥控车辆驾驶行为,使车辆自动驾驶更加安全可靠。附图说明下面结合附图对本专利技术的具体实施方式作进一步说明:图1是本专利技术一种基于强化学习型的方法流程图;图2是本专利技术一种基于强化学习型的系统模块框图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。实施例一图1是本专利技术一种基于强化学习型的方法流程图,参照图1,一种基于强化学习型的方法,包括步骤S1至步骤S5。S1,获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,驾驶轨迹数据包括驾驶行为数据和相应的线路数据;S2,获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;S3,获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;S4,将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,并更新数据库;S5,将车辆当前驾驶行为数据和车辆当前位置信息实时发送至远程控制端,当车辆驾驶处于失配状态时,接收远程控制端调整车辆驾驶行为指令。在本实施例中,自动驾驶车辆可以由车辆电脑控制或者人类控制。本实施例中,获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据具体包括:基于专业司机的T-BOX与GPS线路场景对应同步的刹车油门方向盘转向经验数据对模型进行预训练(即人脑驾驶在无电脑辅助驾驶情形下的训练),生成预学习驾驶轨迹数据。具体的,步骤S2包括:采集当前车辆加速度,基于复分数模型计算车辆加速度的复分数方差,判断车辆加速度是否超过加速度预设阈值,若是,则锁本文档来自技高网...

【技术保护点】
1.一种基于强化学习型的方法,其特征在于,所述方法包括:获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。

【技术特征摘要】
1.一种基于强化学习型的方法,其特征在于,所述方法包括:获取车辆在行驶过程中的批量训练数据,生成预学习驾驶轨迹数据,并存储在数据库中,所述驾驶轨迹数据包括驾驶行为数据和相应的线路数据;获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶参数;获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为;将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块,对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库。2.根据权利要求1所述的一种基于强化学习型的方法,其特征在于,所述获取车辆当前驾驶行为数据,基于复分数模型对驾驶行为数据进行处理,根据驾驶行为数据处理结果以确定是否锁定当前驾驶速度具体包括:采集当前车辆加速度,基于复分数模型计算车辆加速度的复分数方差,判断车辆加速度是否超过加速度预设阈值,若是,则锁定当前车辆加速度,所述车辆加速度包括油门加速度、方向盘加速度和刹车加速度。3.根据权利要求1所述的一种基于强化学习型的方法,其特征在于,所述获取车辆当前位置与环境信息,基于预学习驾驶轨迹数据,根据驾驶行为数据,调整车辆自动驾驶行为具体包括:获取车辆当前位置与环境信息,包括当前车身位置、当前航向角及当前道路状况,从数据库中匹配相应的自动驾驶曲线及指令驾驶行为;根据车辆当前驾驶行为数据,判断车辆当前驾驶行为是否与指令驾驶行为匹配,若不匹配,则调整车辆自动驾驶行为。4.根据权利要求1所述的一种基于强化学习型的方法,其特征在于,所述将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块对获取的驾驶行为数据进行按复分数模型计算并记分聚类存储,更新数据库具体包括:将获取的驾驶行为数据输入深度Q网络模块和学习损失函数模块;对获取的驾驶行为数据按复分数模型进行计算,获取驾驶行为记分聚类表,根据驾驶行为记分聚类表的打分准则,得到当前驾驶行为数据的驾驶行为分值;根据驾驶行为分值,对当前的驾驶行为进行记分聚类存储,并更新数...

【专利技术属性】
技术研发人员:黄骏史玉回张大步
申请(专利权)人:南方科技大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1