【技术实现步骤摘要】
一种交通参与者意图的预测方法
[0001]本专利技术属于交通
,具体涉及一种交通参与者意图的预测方法。
技术介绍
[0002]随着计算机视觉、感知计算技术的不断发展,自动驾驶、辅助驾驶技术在交通领域获得了极大的发展。在实际驾驶场景中,行人、非机动车的随机驾驶模式为自动驾驶技术的应用带来了严峻的挑战。因此,在交通场景中行人、非机动车的意图推理和行为预测具有重要的现实意义。现有技术中,对于行人、非机动车的意图推理和行为预测主要采用基于图像和基于视频的意图预测两种方法。基于图像的行人意图预测方法主要根据行人的脸部朝向、肢体动作等指标分类判断其是否具有过街意图。其中,公开号为CN112329684A的专利文献提出了一种固定机位的行人过街意图检测,使用十字路口的固定人脸相机识别人脸朝向,分类判断行人是否具有过街意图;公开号为CN114550297A的专利文献提出了一种基于行人动作编码的过街意图检测方法,通过图像识别方法识别行人动作并结合交通场景判断行人过街意图。来自约克大学和多伦多大学的研究者识别行人动作并结合场景中的交通文本标注语义(天气、斑马线、红绿灯),协同预测行人的马路穿越意图(Are They Going to Cross?ABenchmark Dataset and Baseline for Pedestrian Crosswalk Behavior)。而基于视频的行人、非机动车意图预测方法则根据其动态行为预测意图:公开号为CN109712388A的专利文献提出了一种行人、非机动车过街意图检测方法,通过车载相 ...
【技术保护点】
【技术特征摘要】
1.一种交通参与者意图的预测方法,其特征在于,包括以下步骤:利用融合交叉注意力机制的场景描述模型检索场景图像中交通参与者并用自然语言描述其在场景中的行为状态,形成交通场景描述序列;利用提示词匹配模型基于构建的提示词库为从交通场景描述序列中提取的关键词匹配最优提示词;利用基于知识驱动的预训练语言模型基于最优提示语与交通场景描述序列形成的组合进行意图推测输出推测结果。2.根据权利要求1所述的交通参与者意图的预测方法,其特征在于,所述场景描述模型包括关联场景检索模块、语义分析模块以及图文转换模块;场景图像被划分为子图后再映射为嵌入子图向量,关联场景检索模块提供交通关联词向量,基于交通关联词向量计算嵌入子图向量与关联交通场景的交叉注意力权重,该交叉注意力权重与嵌入子图向量相乘后输入至语义分析模块,语义分析模块基于多头深度自注意力机制对输入向量进行编码得到语义向量并输入至图文转换模块,图文转换模块将语义向量转换为自然语言,形成交通场景描述序列。3.根据权利要求2所述的交通参与者意图的预测方法,其特征在于,所述场景描述模型的构建过程包括:构建样本数据;准备场景图像及对应的文本描述,形成一个样本数据;构建训练系统:训练系统包括关联场景检索模块、语义分析模块、图文掩码任务模块、对比任务模块以及图文匹配任务模块,样本数据中的文本描述经过分词后映射为嵌入词向量,样本数据的场景图像被划分为子图后再映射为嵌入子图向量,关联场景检索模块提供交通关联词向量,基于交通关联词向量分别计算嵌入子图向量和词嵌入向量与关联交通场景的交叉注意力权重,两交叉注意力权重分别与嵌入子图向量和词嵌入向量相乘后输入至语义分析模块,语义分析模块基于多头深度自注意力机制对输入向量进行编码得到语义向量,图文掩码任务模块用于构建图文掩码任务,随机掩码部分嵌入词向量和嵌入子图向量,并基于掩码后向量对应的语义向量恢复得到掩码部分的重建向量,图文匹配任务模块用于构建图像和文本匹配任务,分别在加权的词嵌入向量和嵌入子图向量的头部增加空白标志向量输入至语义分析模块,语义分析模块输出的空白标志向量部分对应的文本全局表征和图像全局表征用于判断图像
‑
文本是否匹配,对比任务模块用于构建对比任务,匹配的图像
‑
文本对应的图像全局表征和文本全局表征作为正样本对,不匹配的图像
‑
文本对应的图像全局表征和文本全局表征作为负样本对;构建多任务损失:多任务损失包括针对图文掩码任务的掩码损失、针对图文匹配任务的匹配损失以及针对对比任务的对比损失的匹配损失;参数优化训练系统:利用多任务损失对训练系统进行参数优化,优化结束后,提取参数优化的语义分析模块和关联场景检索模块后,再增加图文转换模块得到场景描述模型。4.根据权利要求2或3所述的交通参与者意图的预测方法,其特征在于,基于交通关联词向量计算嵌入子图向量与关联交通场景的交叉注意力权重,包括:计算嵌入子图向量与所有交通关联词向量的向量点乘,拼接成为交通相似向量,并采用一个线性变换网络将交通相似向量映射至一维标量,作为嵌入子图向量的交叉注意力权重。
基于交通关联词向量计算嵌入词向量与关联交通场景的交叉注意力权重,包括:计算嵌入词向量与所有交通关联词向量的向量点乘,拼接成为交通相似向量,并采用另一个线性变换网络将交通相似向量映射至一维标量,作为嵌入词向量的交叉注意力权重。5.根据权利要求3所述的交通参与者意图的预测方法,其特征在于,所述掩码损失L
m
表示为:其中,i表示被掩码的嵌入词向量或子图向量的索引,j表示嵌入词向量或子图向量中的维度索引,表示第i个被掩码的输入向量中的第j维数据,而表示经过语义分析模块和线性解码得到的第i个重构向量的第j维数据,d
K
表示嵌入子图向量、词向量的维度;所述匹配损失L
s
表示为:L
s
=y
t
p(c1,c2)
ture
+(1
‑
y
t
)p(c1,c2)
false
其中,y
t
表示匹配标签,p(c1...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。