一种决策信息生成方法、装置、设备及存储介质制造方法及图纸

技术编号:26731513 阅读:37 留言:0更新日期:2020-12-15 14:34
本发明专利技术公开了一种决策信息生成方法、装置、设备及存储介质。该方法包括:获取当前时刻当前车辆的状态参数和环境信息;对所述状态参数和环境信息进行数据处理,得到目标特征向量;将所述目标特征向量输入决策信息生成模型,得到与所述目标特征向量对应的决策信息,其中,所述决策信息生成模型为双向LSTM网络模型,所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的,通过本发明专利技术的技术方案,以解决目前智能车辆在自动驾驶过程中基于规则学习不能自调整、场景覆盖不完全等缺点,提高了自动驾驶车辆的行为决策准确性和行车安全性。

【技术实现步骤摘要】
一种决策信息生成方法、装置、设备及存储介质
本专利技术实施例涉及车辆技术,尤其涉及一种决策信息生成方法、装置、设备及存储介质。
技术介绍
随着人工智能技术的发展,智能产品已经慢慢融入了我们生活的方方面面。自动驾驶成为了未来交通的发展方向,自动驾驶不仅具备加减速、转向等常规汽车功能,还集成了环境感知、行为决策、路径规划、车辆控制等系统功能。决策规划问题是自动驾驶中非常关键的一步,决策是否合理直接决定了自动驾驶车辆智能等级。因此也是自动驾驶发展要面对的重要难题。决策系统目前主要是基于规则的行为决策,即将自动驾驶行为按照形式规则、交通法规、驾驶常识等建立行为规则库,按照不同场景划分车辆状态,并按照规则逻辑确定车辆行为的方法。基于规则的行为决策是一种保守的行为决策系统,在多数情况下可以正常使用,但是并不能根据驾驶者的驾驶习惯等调整车辆的行为决策,由于状态切割划分条件导致车辆行为不连贯;行为规则库触发条件易重叠从而造成系统失效;而且基于规则的行为决策存在无法覆盖所有突发情况场景以及场景深度遍历不足导致系统决策正确率难以提升,对复杂工况处理及算法性能的提升存在瓶颈的缺点。
技术实现思路
本专利技术实施例提供一种决策信息生成方法、装置、设备及存储介质,以解决目前智能车辆在自动驾驶过程中基于规则学习不能自调整、场景覆盖不完全等缺点,提高了自动驾驶车辆的行为决策准确性和行车安全性。第一方面,本专利技术实施例提供了一种决策信息生成方法,包括:获取当前时刻当前车辆的状态参数和环境信息;<br>对所述状态参数和环境信息进行数据处理,得到目标特征向量;将所述目标特征向量输入决策信息生成模型,得到与所述目标特征向量对应的决策信息,其中,所述决策信息生成模型为双向LSTM网络模型,所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的。进一步的,所述决策信息生成模型的训练方法,包括:获取样本状态参数、样本环境信息和样本决策信息;将所述样本状态参数和所述样本环境信息输入至待训练的双向LSTM网络模型中,得到预测决策信息;根据所述样本决策信息和所述预测决策信息形成的目标函数训练所述待训练的双向LSTM网络模型的模型结构和模型参数;返回执行将所述样本状态参数和所述样本环境信息输入至待训练的双向LSTM网络模型中,得到预测决策信息的操作,直至得到决策信息生成模型。进一步的,所述环境信息包括:全局导航生成的规划路径、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆的车速、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆与当前车辆的车距、当前车辆行驶路段的车道线情况、当前车辆周围的障碍物状态以及交通灯状态中的至少一种。进一步的,所述双向LSTM网络模型包括:前向LSTM网络模型、后向LSTM网络模型和前馈神经网络模型;将所述目标特征向量输入决策信息生成模型,得到与所述目标特征向量对应的决策信息,包括:将所述目标特征向量输入所述前向LSTM网络模型,得到当前时刻和当前时刻之前预设时间的状态参数和环境信息对应的第一特征向量;将所述目标特征向量输入所述后向LSTM网络模型,得到当前时刻和当前时刻之后预设时间的状态参数和环境信息对应的第二特征向量;将所述第一特征向量和所述第二特征向量输入所述前馈神经网络模型,得到与所述目标特征向量对应的决策信息。进一步的,双向LSTM网络模型包括:输入层、两个隐含层和输出层,所述隐含层的激活函数为矫正激活函数,输出层的激活函数为softmax函数。进一步的,所述双向LSTM网络模型包括:遗忘门、输入门、输出门和记忆单元;所述遗忘门通过如下公式实现:ft=σ(Wf·[ht-1,xt]+bf);其中,Wf为遗忘门的权重,ht-1为t-1时刻记忆单元的输出,xt为t时刻的输入,bf为遗忘门的偏移向量,σ为sigmoid函数;所述输入门通过如下公式实现:it=σ(Wi·[ht-1,xt]+bi);其中,Wi为输入门的权重,ht-1为t-1时刻记忆单元的输出,xt为t时刻的输入,bf为输入门的偏移向量,σ为sigmoid函数;当前t时刻的候选值通过如下公式计算得到:其中,WC为记忆单元的权重,ht-1为t-1时刻记忆单元的输出,xt为t时刻的输入,bC为记忆单元的偏移向量;当前t时刻的记忆单元的状态通过如下公式计算得到:其中,Ct-1为t-1时刻的记忆单元的状态;输出门通过如下公式实现:ot=σ(Wo·[ht-1,xt]+bo);其中,Wo为输入门的权重,ht-1为t-1时刻的输出,xt为t时刻的输入,bo为输入门的偏移向量,σ为sigmoid函数;所述决策信息生成模型的输出通过如下公式计算得到:ht=ot*tanh(ct)。第二方面,本专利技术实施例还提供了一种决策信息生成装置,该装置包括:获取模块,用于获取当前时刻当前车辆的状态参数和环境信息;处理模型,用于对所述状态参数和环境信息进行数据处理,得到目标特征向量;生成模块,用于将所述目标特征向量输入决策信息生成模型,得到与所述目标特征向量对应的决策信息,其中,所述决策信息生成模型为双向LSTM网络模型,所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的。进一步的,所述生成模块具体用于:获取样本状态参数、样本环境信息和样本决策信息;将所述样本状态参数和所述样本环境信息输入至待训练的双向LSTM网络模型中,得到预测决策信息;根据所述样本决策信息和所述预测决策信息形成的目标函数训练所述待训练的双向LSTM网络模型的模型结构和模型参数;返回执行将所述样本状态参数和所述样本环境信息输入至待训练的双向LSTM网络模型中,得到预测决策信息的操作,直至得到决策信息生成模型。进一步的,所述环境信息包括:全局导航生成的规划路径、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆的车速、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆与当前车辆的车距、当前车辆行驶路段的车道线情况、当前车辆周围的障碍物状态以及交通灯状态中的至少一种。进一步的,所述双向LSTM网络模型包括:前向LSTM网络模型、后向LSTM网络模型和前馈神经网络模型;所述生成模型具体用于:将所述目标特征向量输入所述前向LSTM网络模型,得到当前时刻和当前时刻之前预设时间的状态参数和环境信息对应的第一特征向量;将所述目标特征向量输入所述后向LSTM网络模型,得到当前时刻和当前时刻之后预设时间的状态参数和环境信息对应的第二特征向量;将所述第一特征向量和所述第二特征向量输入所述前馈神经网络模型,得到与所述目标特征向量对应的决策信息。进一步的,双向LSTM网络模型包括:输入层、两个本文档来自技高网...

【技术保护点】
1.一种决策信息生成方法,其特征在于,包括:/n获取当前时刻当前车辆的状态参数和环境信息;/n对所述状态参数和环境信息进行数据处理,得到目标特征向量;/n将所述目标特征向量输入决策信息生成模型,得到与所述目标特征向量对应的决策信息,其中,所述决策信息生成模型为双向LSTM网络模型,所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的。/n

【技术特征摘要】
1.一种决策信息生成方法,其特征在于,包括:
获取当前时刻当前车辆的状态参数和环境信息;
对所述状态参数和环境信息进行数据处理,得到目标特征向量;
将所述目标特征向量输入决策信息生成模型,得到与所述目标特征向量对应的决策信息,其中,所述决策信息生成模型为双向LSTM网络模型,所述决策信息生成模型的模型结构和模型参数是分别根据样本状态参数、样本环境信息和样本决策信息训练得到的。


2.根据权利要求1所述的方法,其特征在于,所述决策信息生成模型的训练方法,包括:
获取样本状态参数、样本环境信息和样本决策信息;
将所述样本状态参数和所述样本环境信息输入至待训练的双向LSTM网络模型中,得到预测决策信息;
根据所述样本决策信息和所述预测决策信息形成的目标函数训练所述待训练的双向LSTM网络模型的模型结构和模型参数;
返回执行将所述样本状态参数和所述样本环境信息输入至待训练的双向LSTM网络模型中,得到预测决策信息的操作,直至得到决策信息生成模型。


3.根据权利要求2所述的方法,其特征在于,所述环境信息包括:全局导航生成的规划路径、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆的车速、处于当前车辆前方且与当前车辆的距离小于预设距离的车辆与当前车辆的车距、当前车辆行驶路段的车道线情况、当前车辆周围的障碍物状态以及交通灯状态中的至少一种。


4.根据权利要求3所述的方法,其特征在于,所述双向LSTM网络模型包括:前向LSTM网络模型、后向LSTM网络模型和前馈神经网络模型;
将所述目标特征向量输入决策信息生成模型,得到与所述目标特征向量对应的决策信息,包括:
将所述目标特征向量输入所述前向LSTM网络模型,得到当前时刻和当前时刻之前预设时间的状态参数和环境信息对应的第一特征向量;
将所述目标特征向量输入所述后向LSTM网络模型,得到当前时刻和当前时刻之后预设时间的状态参数和环境信息对应的第二特征向量;
将所述第一特征向量和所述第二特征向量输入所述前馈神经网络模型,得到与所述目标特...

【专利技术属性】
技术研发人员:何柳李宇寂尚秉旭
申请(专利权)人:中国第一汽车股份有限公司
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1