当前位置: 首页 > 专利查询>清华大学专利>正文

一种宽视场高分辨视频高效智能检测方法及系统技术方案

技术编号:37125868 阅读:27 留言:0更新日期:2023-04-01 05:22
本发明专利技术公开了一种宽视场高分辨视频高效智能检测方法及系统,该方法包括:利用宽视场高分辨成像设备生成待检测图像;对待检测图像按照预设像素大小进行分割合并得到第一特征图;利用神经网络的线性层对第一特征图进行线性变换得到第二特征图;基于窗口区域内的抽象特征对第二特征图进行全局特征的抽取融合,以及基于丢弃的第二特征图中预设区域的窗口内特征进行提取融合,以进行目标检测得到待检测图像的目标图像检测结果。本发明专利技术可以可以在宽视场高分辨视频中显著的提高目标智能检测的精度和速度。精度和速度。精度和速度。

【技术实现步骤摘要】
一种宽视场高分辨视频高效智能检测方法及系统


[0001]本专利技术涉及目标检测
,特别是涉及一种宽视场高分辨视频高效智能检测方法及系统。

技术介绍

[0002]现有的技术包括:使用全局注意力机制实现目标检测。ViT方法通过对图像所有区域之前的注意力信息交互获得高维度特征,但是随着图像分辨率的增加,其计算需求呈现平方级增长,所以当高分辨场景下需要很大的计算能力和计算时间。使用基于窗口的注意力机制实现目标检测。Swin Transformer方法通过将图片分成很多个窗口,并只在窗口内部进行注意力机制的方法有效缓解了计算量,但是当宽视场的场景下,依旧会在背景区域浪费很多算力。
[0003](1)在高分辨率图像上使用密集特征导致检测速度下降。对于目标检测方法来说存在一个检测下限,即待检测物体小于一定像素大小会很难被检测到,一种有效的改进方法是提高图像的分辨率,但是当物体达到一定分辨率后现有的目标检测方法已经可以完成对其检测工作,继续提升分辨率并不会有检测精度上的增加,相反,由于现有检测算法的速度和需要处理的像素正相关,所以更高的分辨率会降低检测的速度,造成检测速度慢且无法实时呈现结果的缺点。
[0004](2)在背景区域使用密集特征导致速度和精度的下降。目标检测方法的目的是获取待处理图像上所有物体的坐标和类别,因此很多无关的内容包括但不仅限于蓝天、地面、墙壁、高楼等物体会造成跟多的错误预测,现有的方法采用密集特征即对所有背景区域同样构建高维度的语义特征,最终不但会导致大量的计算时间浪费,还会导致在背景区域产生的错误预测从而降低检测的精度的缺点。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]本专利技术的目的在于提供一种能够大幅提高宽视场高分辨图像上的目标智能检测速度和精度的方案,提出一种宽视场高分辨视频高效智能检测方法。
[0007]本专利技术的另一个目的在于提出一种宽视场高分辨视频高效智能检测系统。
[0008]为达上述目的,本专利技术一方面提出一种宽视场高分辨视频高效智能检测方法,包括:利用宽视场高分辨成像设备生成待检测图像;对所述待检测图像按照预设像素大小进行分割合并得到第一特征图;其中,所述第一特征图包括第一像素维度和第一分辨率的特征图;利用神经网络的线性层对所述第一特征图进行线性变换得到第二特征图;其中,所述第二特征图包括第二像素维度和第一分辨率的特征图;基于窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合,以及基
于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合,以进行目标检测得到所述待检测图像的目标图像检测结果。
[0009]另外,根据本专利技术上述实施例的宽视场高分辨视频高效智能检测方法还可以具有以下附加的技术特征:进一步地,所述利用窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合,包括:对所述第二特征图进行基于窗口的特征稀疏化处理得到第三特征图;对所述第三特征图进行信息的交互和抽取得到第四特征图;其中,所述第四特征图与所述第三特征图的像素维度和分辨率相同;对所述第四特征图进行特征反稀疏化操作得到第五特征图;将所述第五特征图与所述第二特征图进行特征融合得到基于全局注意力的特征图。
[0010]进一步地,所述对所述第二特征图进行基于窗口的特征稀疏化处理得到第三特征图,包括:按照预设模版对所述第二特征图的所有像素进行划分得到多个窗口;对每个窗口内的所有特征进行融合计算得到所述第三特征图;其中,所述第三特征图包括第二像素维度和第二分辨率的特征图。
[0011]进一步地,所述对所述第四特征图进行特征反稀疏化操作得到第五特征图,包括:利用复制拷贝的方法对所述第四特征图进行复制操作得到每个窗口所包含像素数量的特征;基于所述每个窗口所包含像素数量的特征得到所述第五特征图;其中,所述第五特征图与所述第二特征图的像素维度和分辨率相同。
[0012]进一步地,所述基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合,包括:计算所述第二特征图的所有窗口的重要性得分,根据所述重要性得分按照预设比率丢弃窗口原始特征图,对剩余窗口所有像素进行特征交互和提取得到局部注意力的初始特征图;按照原空间位置对所述窗口原始特征图和所述初始特征图进行拼接,得到基于局部注意力的特征图。
[0013]进一步地,所述方法,还包括:按照网格对所述基于全局注意力的特征图和所述基于局部注意力的特征图进行划分,将网格内的所有特征进行融合,并利用所述神经网络的线性层对融合后的特征进行映射得到最终融合特征图。
[0014]进一步地,所述计算所述第二特征图的所有窗口的重要性得分,包括:利用基于方差的可学习决策方法,计算所述第二特征图的窗口内的平均特征;计算所述第二特征图的窗口内每个像素的特征与所述平均特征之间的差异度;利用所述神经网络的线性层将所述差异度进行线性映射得到一个分值,以通过softmax函数计算所有窗口的重要性得分。
[0015]为达上述目的,本专利技术另一方面提出一种宽视场高分辨视频高效智能检测系统,
包括:图像获取模块,用于利用宽视场高分辨成像设备生成待检测图像;图像分割模块,用于对所述待检测图像按照预设像素大小进行分割合并得到第一特征图;其中,所述第一特征图包括第一像素维度和第一分辨率的特征图;线性映射模块,用于利用神经网络的线性层对所述第一特征图进行线性变换得到第二特征图;其中,所述第二特征图包括第二像素维度和第一分辨率的特征图;目标检测模块,用于基于窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合,以及基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合,以进行目标检测得到所述待检测图像的目标图像检测结果。
[0016]本专利技术实施例的宽视场高分辨视频高效智能检测方法和系统,可以在宽视场高分辨视频中显著的提高目标智能检测的精度和速度,为更新一代成像系统提供图像内容分析方法。
[0017]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0018]本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是根据本专利技术实施例的宽视场高分辨视频高效智能检测方法的流程图;图2是根据本专利技术实施例的宽视场高分辨视频高效智能检测方法的架构图;图3是根据本专利技术实施例的利用窗口区域内的抽象特征对第二特征图进行全局特征的抽取融合的流程图;图4是根据本专利技术实施例的全局注意力过程基于窗口的特征稀疏化示意图;图5是根据本专利技术实施例的基于丢弃的第二特征图中预设区域的窗口内特征进行提取融合流程图;图6是根据本专利技术实施例的局部注意力过程的窗口的稀疏化示意图;图7是根据本专利技术实施例的宽视场高分辨视频高效智能检测系统的结构图;图8是根据本专利技术实施例的目标检测模块示意图。
具体实施方式
[0019]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种宽视场高分辨视频高效智能检测方法,其特征在于,包括以下步骤:利用宽视场高分辨成像设备生成待检测图像;对所述待检测图像按照预设像素大小进行分割合并得到第一特征图;其中,所述第一特征图包括第一像素维度和第一分辨率的特征图;利用神经网络的线性层对所述第一特征图进行线性变换得到第二特征图;其中,所述第二特征图包括第二像素维度和第一分辨率的特征图;基于窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合,以及基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合,以进行目标检测得到所述待检测图像的目标图像检测结果。2.根据权利要求1所述的方法,其特征在于,所述利用窗口区域内的抽象特征对所述第二特征图进行全局特征的抽取融合,包括:对所述第二特征图进行基于窗口的特征稀疏化处理得到第三特征图;对所述第三特征图进行信息的交互和抽取得到第四特征图;其中,所述第四特征图与所述第三特征图的像素维度和分辨率相同;对所述第四特征图进行特征反稀疏化操作得到第五特征图;将所述第五特征图与所述第二特征图进行特征融合得到基于全局注意力的特征图。3.根据权利要求2所述的方法,其特征在于,所述对所述第二特征图进行基于窗口的特征稀疏化处理得到第三特征图,包括:按照预设模版对所述第二特征图的所有像素进行划分得到多个窗口;对每个窗口内的所有特征进行融合计算得到所述第三特征图;其中,所述第三特征图包括第二像素维度和第二分辨率的特征图。4.根据权利要求2所述的方法,其特征在于,所述对所述第四特征图进行特征反稀疏化操作得到第五特征图,包括:利用复制拷贝的方法对所述第四特征图进行复制操作得到每个窗口所包含像素数量的特征;基于所述每个窗口所包含像素数量的特征得到所述第五特征图;其中,所述第五特征图与所述第二特征图的像素维度和分辨率相同。5.根据权利要求4所述的方法,其特征在于,所述基于丢弃的所述第二特征图中预设区域的窗口内特征进行提取融合,包括:计算所述第二特征图的所有窗口的重要性得分,根据所述重要性得分按照预设比率丢弃窗口原始特征图,对剩余窗口所有像素进行特征交互和提取得到局部注意力的初始特征图;按照原空间位置对所述窗口原始特征图和所述初始特征图进行拼接,得到基于局部注意力的特征...

【专利技术属性】
技术研发人员:方璐郭雨晨林浩哲
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1