基于视听融合的道路场景识别方法及系统技术方案

技术编号：43365098 阅读：28 留言：0更新日期：2024-11-19 17:48

本发明专利技术提出了基于视听融合的道路场景识别方法及系统，涉及道路场景识别技术领域。包括获取道路场景视频，提取关键帧；提取关键帧中每一帧的全局特征和局部特征进行融合，得到多层的关键帧的场景特征表示，将多层的关键帧的场景特征表示进行融合，得到道路场景视觉模态的视觉特征；分离道路场景视频中的音频，提取音频的MFCC特征，作为道路场景音频模态的声音特征；将视觉特征和声音特征进行融合，基于融合特征对道路场景进行分类，得到道路场景识别结果。本发明专利技术充分考虑道路视频场景的局部目标特征与全局场景特征的结合，并考虑将视觉特征与声音特征进行多模态融合，通过多层视听融合的框架，提高道路视频场景识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于道路场景识别，尤其涉及基于视听融合的道路场景识别方法及系统。

技术介绍

1、随着计算机视觉及无人驾驶技术的发展，道路场景的识别技术得到了越来越多的应用，技术方案越来越成熟，准确率也越来越高。目前道路场景识别大多基于图像，且不涉及声音等模态的信息。事实上，视频可以更好地反映在一段时间内道路的真实情况，再加之声音的辅助可以更好地反映真实场景。当前视频场景识别中采用的视频场景表征方法包括两种：一种是采用场景中局部的目标集合表征场景信息，另一种是采用全局的视频特征来表征场景信息。

2、然而，专利技术人发现，单纯采用目标集合，容易忽略全局的背景信息。单纯采用全局的视频特征，又无法细粒度地表征场景中所包含的目标。因此导致视频场景表征不准确。

技术实现思路

1、为克服上述现有技术的不足，本专利技术提供了基于视听融合的道路场景识别方法及系统，充分考虑道路视频场景的局部目标特征与全局场景特征的结合，并考虑将视觉特征与声音特征进行多模态融合，通过多层视听融合的框架，提高道路视频场景识别的准确率。

本文档来自技高网...

【技术保护点】

1.基于视听融合的道路场景识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于视听融合的道路场景识别方法，其特征在于：

3.如权利要求1所述的基于视听融合的道路场景识别方法，其特征在于：

4.如权利要求1所述的基于视听融合的道路场景识别方法，其特征在于，将多层的关键帧的场景特征，作为token输入至Visual Transformer中，通过transformer的编码器，将所有关键帧的场景特征进行融合，得到道路场景视觉模态的视觉特征。

5.如权利要求1所述的基于视听融合的道路场景识别方法，其特征在于：>

6.如权利要...

【技术特征摘要】

1.基于视听融合的道路场景识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于视听融合的道路场景识别方法，其特征在于：

3.如权利要求1所述的基于视听融合的道路场景识别方法，其特征在于：

4.如权利要求1所述的基于视听融合的道路场景识别方法，其特征在于，将多层的关键帧的场景特征，作为token输入至visual transformer中，通过transformer的编码器，将所有关键帧的场景特征进行融合，得到道路场景视觉模态的视觉特征。

5.如权利要求1所述的基于视听融合的道路场景识别方法，其特征在于：

6.如权利要求3所述的基于视听融合的道路场景识别方法，其特征在...

【专利技术属性】
技术研发人员：王呈周，杨继欣，陈秀西，于强，张德斌，邢福梅，
申请(专利权)人：山东省凯麟环保设备股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人