一种多模态自动提取交通场景信息的方法、系统及设备技术方案

技术编号:34602542 阅读:24 留言:0更新日期:2022-08-20 09:05
本发明专利技术公开了一种多模态自动提取交通场景信息的方法及及电子设备,通过获取交通场景监控视频、新闻报道图片及文本、天气信息,对它们进行预处理后,用卷积神经网络提取特征,并采用词嵌入将文本转换为语义向量,通过多个注意力机制组件生成交通解说文本,同时基于交通领域专业语料库,采用生成对抗网络以及奖惩机制,使生成的句子具有交通领域专业性,最终实现对交通场景的解说。本发明专利技术通过多模态的输入数据,使得对交通场景的解说更加具有时效性、准确性、专业性,同时节约了人力成本。同时节约了人力成本。同时节约了人力成本。

【技术实现步骤摘要】
一种多模态自动提取交通场景信息的方法、系统及设备


[0001]本专利技术属于计算机图像、自然语言处理
,涉及一种自动提取交通场景信息的方法、系统及设备,具体涉及一种多模态自动提取交通场景信息的方法、系统及设备,可以进一步应用到根据交通监控视频和新闻报道图片及新闻文本来自动生成专业性的解说。

技术介绍

[0002]目前,在交通运输系统中,有大量的录影录像设备实时监控交通状况,同时新闻媒体十分发达,基于互联网,新闻信息的传播速度极其快,气象预报越来越准确,全球定位系统精准度大幅度提高,这些数据有很高的价值,可以将它们应用于交通场景自动播报领域。当前,在繁忙的交通要道,交通状况十分复杂,各种危险事件随时可能发生,驾驶员需要及时获取最新路况事件信息,从而做出更合理的应对措施。
[0003]已有的研究大都集中在交通流量预测、交通轨迹分类,但对于具体事件无法获知,交通广播也具有一定的延时性,并且通常也没有针对性,对于不同区域的驾驶员无法做到个性化定制,无法适应复杂多变的交通场景。

技术实现思路

[0004]为了解决上述技术问题本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态自动提取交通场景信息的方法,其特征在于,包括以下步骤:步骤1:获取交通场景的监控视频,抓取与该交通场景相关的新闻图片和文字,及当前的天气信息;步骤2:从监控视频中每隔预定时间截取一帧I
i
,按时间顺序存储为视频帧序列集合,将视频帧和抓取的新闻图片提取图像特征,得到特征向量v
i
,由一个视觉编码器处理该特征向量序列,其中,首先处理特征向量序列v得到每一个视频帧以及新闻图片的特征表示h
i
,进而获取视觉编码器的最终输出h,h是h
i
序列经过合并,随后乘以一个权重矩阵而得出的向量,它包含视觉特征;步骤3:将抓取的新闻文字和天气信息合并后得到文本向量序列e=e1,e2,...,e
L
,其中e
i
表示一个词,随后采用词嵌入将文本序列转换为词向量表示,由一个文本编码器处理该向量序列,其中,首先处理文本向量序列e获取价值信息,再联合步骤2中视觉编码器的输出h,得到文本中每个词的特征表示g
i
,进而获取文本编码器的最终输出g,g是g
i
序列经过合并,随后乘以一个权重矩阵而得出的向量,它包含文本特征;步骤4:生成交通场景信息文本。2.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤2中,使用卷积神经网络提取图像特征。3.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤2中,使用图像注意力组件处理特征向量序列v。4.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤3中,使用文本注意力组件处理文本向量序列e。5.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤3中,利用图像

文本联合注意力组件,得到文本中每个词的特征表示g
i
。6.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤4中,使用交通场景信息解码器生成交通场景信息文本。7.根据权利要求1所述的多模态自动提取交通场景信息的方法,其特征在于:步骤4中的具体实现包括以下子步骤:步骤4.1:确定需要生成的句子每一个位置对应的词;通过公式1和公式2求得前0到i

1位置的词的概率,即p(y0,...,y
i
‑1,h,g);s
i
=Transformer(y
i
,y,h,g);
ꢀꢀꢀꢀ
(1)p(y0,...,y
i
‑1,h,g)=Softmax(Ws
i
);
ꢀꢀꢀꢀ
(2)其中,y
i
∈y,y为目标...

【专利技术属性】
技术研发人员:张蕊卓一帆
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1