【技术实现步骤摘要】
本专利技术属于道路场景识别,尤其涉及基于视听融合的道路场景识别方法及系统。
技术介绍
1、随着计算机视觉及无人驾驶技术的发展,道路场景的识别技术得到了越来越多的应用,技术方案越来越成熟,准确率也越来越高。目前道路场景识别大多基于图像,且不涉及声音等模态的信息。事实上,视频可以更好地反映在一段时间内道路的真实情况,再加之声音的辅助可以更好地反映真实场景。当前视频场景识别中采用的视频场景表征方法包括两种:一种是采用场景中局部的目标集合表征场景信息,另一种是采用全局的视频特征来表征场景信息。
2、然而,专利技术人发现,单纯采用目标集合,容易忽略全局的背景信息。单纯采用全局的视频特征,又无法细粒度地表征场景中所包含的目标。因此导致视频场景表征不准确。
技术实现思路
1、为克服上述现有技术的不足,本专利技术提供了基于视听融合的道路场景识别方法及系统,充分考虑道路视频场景的局部目标特征与全局场景特征的结合,并考虑将视觉特征与声音特征进行多模态融合,通过多层视听融合的框架,提高道路视频场景识
本文档来自技高网...【技术保护点】
1.基于视听融合的道路场景识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于视听融合的道路场景识别方法,其特征在于:
3.如权利要求1所述的基于视听融合的道路场景识别方法,其特征在于:
4.如权利要求1所述的基于视听融合的道路场景识别方法,其特征在于,将多层的关键帧的场景特征,作为token输入至Visual Transformer中,通过transformer的编码器,将所有关键帧的场景特征进行融合,得到道路场景视觉模态的视觉特征。
5.如权利要求1所述的基于视听融合的道路场景识别方法,其特征在于:
>6.如权利要...
【技术特征摘要】
1.基于视听融合的道路场景识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于视听融合的道路场景识别方法,其特征在于:
3.如权利要求1所述的基于视听融合的道路场景识别方法,其特征在于:
4.如权利要求1所述的基于视听融合的道路场景识别方法,其特征在于,将多层的关键帧的场景特征,作为token输入至visual transformer中,通过transformer的编码器,将所有关键帧的场景特征进行融合,得到道路场景视觉模态的视觉特征。
5.如权利要求1所述的基于视听融合的道路场景识别方法,其特征在于:
6.如权利要求3所述的基于视听融合的道路场景识别方法,其特征在...
【专利技术属性】
技术研发人员:王呈周,杨继欣,陈秀西,于强,张德斌,邢福梅,
申请(专利权)人:山东省凯麟环保设备股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。