当前位置: 首页 > 专利查询>浙江大学专利>正文

一种交通参与者意图的预测方法技术

技术编号:38662011 阅读:9 留言:0更新日期:2023-09-02 22:44
本发明专利技术公开了一种交通参与者意图的预测方法,属于智能交通技术领域,包括以下步骤:利用交叉注意力机制的场景描述模型检索场景图像中交通参与者并用自然语言描述其在场景中的行为状态,形成交通场景描述序列;利用提示词匹配模型基于构建的提示词库为从交通场景描述序列中提取的关键词匹配最优提示词;利用基于知识驱动的预训练语言模型基于最优提示语与交通场景描述序列形成的组合进行意图推测输出推测结果。该方法能够实现对交通参与者意图的准确预测。意图的准确预测。意图的准确预测。

【技术实现步骤摘要】
一种交通参与者意图的预测方法


[0001]本专利技术属于交通
,具体涉及一种交通参与者意图的预测方法。

技术介绍

[0002]随着计算机视觉、感知计算技术的不断发展,自动驾驶、辅助驾驶技术在交通领域获得了极大的发展。在实际驾驶场景中,行人、非机动车的随机驾驶模式为自动驾驶技术的应用带来了严峻的挑战。因此,在交通场景中行人、非机动车的意图推理和行为预测具有重要的现实意义。现有技术中,对于行人、非机动车的意图推理和行为预测主要采用基于图像和基于视频的意图预测两种方法。基于图像的行人意图预测方法主要根据行人的脸部朝向、肢体动作等指标分类判断其是否具有过街意图。其中,公开号为CN112329684A的专利文献提出了一种固定机位的行人过街意图检测,使用十字路口的固定人脸相机识别人脸朝向,分类判断行人是否具有过街意图;公开号为CN114550297A的专利文献提出了一种基于行人动作编码的过街意图检测方法,通过图像识别方法识别行人动作并结合交通场景判断行人过街意图。来自约克大学和多伦多大学的研究者识别行人动作并结合场景中的交通文本标注语义(天气、斑马线、红绿灯),协同预测行人的马路穿越意图(Are They Going to Cross?ABenchmark Dataset and Baseline for Pedestrian Crosswalk Behavior)。而基于视频的行人、非机动车意图预测方法则根据其动态行为预测意图:公开号为CN109712388A的专利文献提出了一种行人、非机动车过街意图检测方法,通过车载相机记录时间窗口内行人、非机动车驾驶员的回头动作及次数,判断其是否具有过街意图;来自约克大学的研究者分析行人过街视频,并根据行人行走过程中的姿态、动作时间变化特征,判断行人是否具有过街意图(PIE:ALarge

Scale Dataset and Models for Pedestrian Intention Estimation and Trajectory Prediction)。
[0003]上述行人、非机动车意图检测方法存在如下特点:1.任务单一,行人、非机动车的过街意图检测是现有技术的关注重点;2.场景单一,现有技术仅在十字路口、斑马线处的无干扰简单场景进行意图推理;3.缺乏知识和推理过程,现有技术采用分类任务的黑盒判断模型,缺乏人类知识和知识驱动的意图推理过程。现有方法缺乏对交通场景内行人、非机动车行为以及场景关键元素的充分理解,同时在简单场景内训练的小规模黑盒模型难以具备复杂的意图推理能力,因此现有技术难以在复杂交通场景下对行人、非机动车的多种意图进行识别、推理和预测。
[0004]为了解决这一关键问题,图像描述模型级联大规模预训练语言模型被用于检测复杂交通场景下的行人、非机动车意图。其中,图像描述模型构建图像处理模块理解交通语义,针对输入的连续交通场景图像序列,采用文本生成模块形成连续的场景描述,而大规模预训练语言模型根据海量人类知识,通过强大的语言推理、语义理解技术、预测场景描述中的意图。这种级联模式下,模型具有对复杂场景的理解和意图推理能力。
[0005]图像描述技术是计算机视觉和自然语言处理中的研究热点。其中,研究者们早期通过卷积神经网络编码图像特征,而后采用循环神经网络、长短期记忆网络顺序解码出对
图像的标注。随着自注意力机制和深度自注意网络(Transformer)的发展,Transformer开始广泛应用于图像描述任务。其中,BLIP模型分别采用视觉Transformer挖掘图像特征以及文本Transformer挖掘文本特征,并采用图像文本匹配、语言建模等任务构造学习图文的匹配,生成图像描述。ViLT模型将图像和文本向量输入至相同的Transformer网络,图文交互特征在模型中充分理解并生成图像的文本描述。现有图像描述技术中,针对输入场景图像生成整体描述,往往忽略场景内关注的细粒度交通元素(如行人、非机动车、交通符号等)。
[0006]大规模预训练语言模型是自然语言处理领域中的研究热点。大规模预训练语言模型采用上千亿参数训练海量人类预料知识库,涌现出机器翻译、语义理解、文本生成、逻辑推理等复杂语言处理能力。大规模语言模型作为跨领域的通用模型,其依赖精心设计的提示词生成用户期望的反馈,并且采用提示词指令微调(“问题:回答”的微调模式)微调语言模型在领域内的专家知识,更改其在特定知识内的推理规则。复杂语言模型的提示词难以选择,且语言模型的微调依赖新的问答知识范式。

技术实现思路

[0007]鉴于上述,本专利技术的目的是提供一种交通参与者意图的预测方法,以实现对交通参与者意图的准确预测。
[0008]为实现上述专利技术目的,实施例提供的一种交通参与者意图的预测方法,包括以下步骤:
[0009]利用融合交叉注意力机制的场景描述模型检索场景图像中交通参与者并用自然语言描述其在场景中的行为状态,形成交通场景描述序列;
[0010]利用提示词匹配模型基于构建的提示词库为从交通场景描述序列中提取的关键词匹配最优提示词;
[0011]利用基于知识驱动的预训练语言模型基于最优提示语与交通场景描述序列形成的组合进行意图推测输出推测结果。
[0012]优选地,所述场景描述模型包括关联场景检索模块、语义分析模块以及图文转换模块;
[0013]场景图像被划分为子图后再映射为嵌入子图向量,关联场景检索模块提供交通关联词向量,基于交通关联词向量计算嵌入子图向量与关联交通场景的交叉注意力权重,该交叉注意力权重与嵌入子图向量相乘后输入至语义分析模块,语义分析模块基于多头深度自注意力机制对输入向量进行编码得到语义向量并输入至图文转换模块,图文转换模块将语义向量转换为自然语言,形成交通场景描述序列。
[0014]优选地,所述场景描述模型的构建过程包括:
[0015]构建样本数据;准备场景图像及对应的文本描述,形成一个样本数据;
[0016]构建训练系统:训练系统包括关联场景检索模块、语义分析模块、图文掩码任务模块、对比任务模块以及图文匹配任务模块,样本数据中的文本描述经过分词后映射为嵌入词向量,样本数据的场景图像被划分为子图后再映射为嵌入子图向量,关联场景检索模块提供交通关联词向量,基于交通关联词向量分别计算嵌入子图向量和词嵌入向量与关联交通场景的交叉注意力权重,两交叉注意力权重分别与嵌入子图向量和词嵌入向量相乘后输入至语义分析模块,语义分析模块基于多头深度自注意力机制对输入向量进行编码得到语
义向量,图文掩码任务模块用于构建图文掩码任务,随机掩码部分嵌入词向量和嵌入子图向量,并基于掩码后向量对应的语义向量恢复得到掩码部分的重建向量,图文匹配任务模块用于构建图像和文本匹配任务,分别在加权的词嵌入向量和嵌入子图向量的头部增加空白标志向量输入至语义分析模块,语义分析模块输出的空白标志向量部分对应的文本全局表征和图像全局表征用于判断图像

文本是否匹配,对比任务模块用于构建对比任务,匹配的图像<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交通参与者意图的预测方法,其特征在于,包括以下步骤:利用融合交叉注意力机制的场景描述模型检索场景图像中交通参与者并用自然语言描述其在场景中的行为状态,形成交通场景描述序列;利用提示词匹配模型基于构建的提示词库为从交通场景描述序列中提取的关键词匹配最优提示词;利用基于知识驱动的预训练语言模型基于最优提示语与交通场景描述序列形成的组合进行意图推测输出推测结果。2.根据权利要求1所述的交通参与者意图的预测方法,其特征在于,所述场景描述模型包括关联场景检索模块、语义分析模块以及图文转换模块;场景图像被划分为子图后再映射为嵌入子图向量,关联场景检索模块提供交通关联词向量,基于交通关联词向量计算嵌入子图向量与关联交通场景的交叉注意力权重,该交叉注意力权重与嵌入子图向量相乘后输入至语义分析模块,语义分析模块基于多头深度自注意力机制对输入向量进行编码得到语义向量并输入至图文转换模块,图文转换模块将语义向量转换为自然语言,形成交通场景描述序列。3.根据权利要求2所述的交通参与者意图的预测方法,其特征在于,所述场景描述模型的构建过程包括:构建样本数据;准备场景图像及对应的文本描述,形成一个样本数据;构建训练系统:训练系统包括关联场景检索模块、语义分析模块、图文掩码任务模块、对比任务模块以及图文匹配任务模块,样本数据中的文本描述经过分词后映射为嵌入词向量,样本数据的场景图像被划分为子图后再映射为嵌入子图向量,关联场景检索模块提供交通关联词向量,基于交通关联词向量分别计算嵌入子图向量和词嵌入向量与关联交通场景的交叉注意力权重,两交叉注意力权重分别与嵌入子图向量和词嵌入向量相乘后输入至语义分析模块,语义分析模块基于多头深度自注意力机制对输入向量进行编码得到语义向量,图文掩码任务模块用于构建图文掩码任务,随机掩码部分嵌入词向量和嵌入子图向量,并基于掩码后向量对应的语义向量恢复得到掩码部分的重建向量,图文匹配任务模块用于构建图像和文本匹配任务,分别在加权的词嵌入向量和嵌入子图向量的头部增加空白标志向量输入至语义分析模块,语义分析模块输出的空白标志向量部分对应的文本全局表征和图像全局表征用于判断图像

文本是否匹配,对比任务模块用于构建对比任务,匹配的图像

文本对应的图像全局表征和文本全局表征作为正样本对,不匹配的图像

文本对应的图像全局表征和文本全局表征作为负样本对;构建多任务损失:多任务损失包括针对图文掩码任务的掩码损失、针对图文匹配任务的匹配损失以及针对对比任务的对比损失的匹配损失;参数优化训练系统:利用多任务损失对训练系统进行参数优化,优化结束后,提取参数优化的语义分析模块和关联场景检索模块后,再增加图文转换模块得到场景描述模型。4.根据权利要求2或3所述的交通参与者意图的预测方法,其特征在于,基于交通关联词向量计算嵌入子图向量与关联交通场景的交叉注意力权重,包括:计算嵌入子图向量与所有交通关联词向量的向量点乘,拼接成为交通相似向量,并采用一个线性变换网络将交通相似向量映射至一维标量,作为嵌入子图向量的交叉注意力权重。
基于交通关联词向量计算嵌入词向量与关联交通场景的交叉注意力权重,包括:计算嵌入词向量与所有交通关联词向量的向量点乘,拼接成为交通相似向量,并采用另一个线性变换网络将交通相似向量映射至一维标量,作为嵌入词向量的交叉注意力权重。5.根据权利要求3所述的交通参与者意图的预测方法,其特征在于,所述掩码损失L
m
表示为:其中,i表示被掩码的嵌入词向量或子图向量的索引,j表示嵌入词向量或子图向量中的维度索引,表示第i个被掩码的输入向量中的第j维数据,而表示经过语义分析模块和线性解码得到的第i个重构向量的第j维数据,d
K
表示嵌入子图向量、词向量的维度;所述匹配损失L
s
表示为:L
s
=y
t
p(c1,c2)
ture
+(1

y
t
)p(c1,c2)
false
其中,y
t
表示匹配标签,p(c1...

【专利技术属性】
技术研发人员:黄莹莹向为
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1