一种基于外观保持模块和三维卷积的运动物体分类方法技术

技术编号:29255527 阅读:12 留言:0更新日期:2021-07-13 17:26
一种基于外观保持模块和三维卷积的运动物体分类方法,包括获取待检测的视频连续帧和标签并进行预处理;利用跨像素语义相似性重建每帧的相邻特征图;并通过对比注意力机制寻找重建图的不匹配区域以避免误差的传播;使用级联1×3×3的空间域卷积和3×1×1的时间域卷积代替传统3D卷积并将空间保持模块以并联级联混合的方式做残差级联,利用得到的残差网络提取特征;对注意力模块施加正则化约束维持多样性;将得到的特征图经过空间最大池化和时间平均池化得到特征向量输入至全连接网络得到针对待分类的预测分类结果。本发明专利技术实现了在视频上对运动的物体进行准确分类。

【技术实现步骤摘要】
一种基于外观保持模块和三维卷积的运动物体分类方法
本申请属于目标分类
,具体涉及运动物体分类方法。
技术介绍
随着深度学习的发展,图像分类和运动物体分类受到了广泛的关注。分析视频中所包含的物体的语义信息、理解其内容,对视频进行标注、分类和描述。大规模视频分类是继图像分类问题解决后下一个急需解决的关键问题。视频中的运动物体的分类比起静止的图像分类来说是一项非常具有挑战性的任务,如遮挡、模糊、运动轨迹难以捉摸,且包含额外的时间信息等。网络不仅可以访问单个静态图像中存在的外观信息,还可以访问它们复杂的时间演化。同时运动物体分类也更加具有价值,例如监控中的人员识别、无人机的识别扫描检测、自动驾驶汽车的行车记录仪等。运动物体分类的主要目标是理解视频中包含的运动的物体,确定运动物体的具体类别。运动物体分类将基于视频的语义内容如人类行为和复杂事件等,将视频中的不同物体的连续帧分类至单个或多个类别。运动物体分类不仅仅是要理解视频中的每一帧图像,更重要的是需要识别出能描述视频的少数几个关键目标。受人类注意力机制的启发,在运动物体分类当中应用注意力机制,可以在保持视频外观表示质量的前提下建模时间关系。在与三维卷积结合下可以有效地提取帧之间的时间信息。
技术实现思路
本专利技术要克服现有技术的上述缺点,提供基于外观保持模块和三维卷积的运动物体分类方法,通过外观保持模块在像素级对齐相邻的特征图,并使用后续的三维卷积在保持外观表现质量的前提下,对时间信息进行建模,并通过正则化约束增强了注意力机制的多样性,实现了在视频上对运动的物体进行准确分类。为实现上述目的,本申请所采取的技术方案为:一种基于外观保持模块和三维卷积的运动物体分类方法,包括以下步骤:步骤S1、获取待检测的视频连续帧和对应的标签;步骤S2、将所有的视频帧调整到256×128像素,并使用水平翻转来增加数据;步骤S3、利用像素语义相似性重建相邻特征图;步骤S4、利用对比注意对重建的相邻特征图进行外观对齐;步骤S5、利用与三维卷积结合的外观保持卷积形成的基本残差单元替换ResNet-50中的残差;步骤S6、对每一个残差单元,添加正则化约束模块实现注意力的多样性;步骤S7、将得到的特征向量输入至全连接网络得到针对待分类的预测分类结果。作为优选,所述步骤S3利用像素语义相似性重建相邻特征图,包括:S31.令获取的T帧的输入张量为T×H×W×C,将每个帧都视作H×W×C的中心帧,其中T代表批处理帧的数量,H、W、C分别代表输入张量的长、宽、通道维度;S32.对每帧的两个相邻帧进行采样,经过零填充后获得2T个相邻的特征映射;S33.为节省计算开销,利用将要素映射到低维空间的线性变化函数g将中心特征图C和相邻特征图X变换至其中r为降维系数,用于将特征图的通道维度降低r倍;S34.将变换后的中心特征图C'和相邻特征图X'计算协方差矩阵P如下:其中,I是的单位矩阵,l=[1,1,1,1…]T是维向量。S35.对所得协方差矩阵P除以比例因子并通过Softmax激活函数得到相似性权重W;S36.将权重系数W乘回原相邻特征图,令大小为H×W×C,即初步重建的相邻特征图Y。作为优选,所述步骤S4利用对比注意力机制对重建的相邻特征图进行外观对齐,包括:S41.通过语义映射将Y和C映射到低维语义空间,变为Y',C';S42.将低维特征图Y',C'进行矩阵点乘得到相似度矩阵Q;S43.将相似度矩阵Q通过sigmoid激活函数产生H×W×1的注意力掩模ContrastiveAttMASK,具体如下:其中,i代表特征图上任意空间位置,yi是重建特征图Y中的任意空间位置的特征,ci是中心特征图C上与yi具有相同空间位置的特征,sigmoid为激活函数,θ、是由1×1卷积实现的语义映射函数;S44.将注意力掩模ContrastiveAttMASK的通道维度扩容后与重建的相邻特征图Y进行矩阵点乘,产生特征图Z为进行对齐后的重建相邻特征图。作为优选,所述步骤S5中三维卷积由一个1×3×3的空间域卷积和一个3×1×1的时间域卷积组成,采用并联级联混合的方式,先通过空间域卷积,再将输出通过外观保持模块和时间域卷积,作为残差级联。利用上述3D卷积和外观保持快组成的残差单元修改ResNet-50网络中的基本残差单元,由于ResNet-50的阶段1缺少精确的语义信息,阶段4缺少精确的空间信息,因此只替换阶段2和阶段3中的基本残差单元。作为优选,所述步骤S6利用正则化约束实现注意力多样性如下:其中β是系数,λ1(·)、λ2(·)分别表示特征矩阵的最大特征值和最小特征值,F为将输出特征图转换为矩阵形式,F∈RC×N,N=H×W,即是特征图的宽高乘积。FT为F的转置。本申请提供基于外观保持模块和三维卷积的运动物体分类方法,通过外观保持模块在像素级利用像素语义相似性重建相邻特征图,利用对比注意对重建的相邻特征图进行外观对齐,并使用后续的三维卷积在保持外观表现质量的前提下,对时间信息进行建模,显著提高了在视频上对运动的物体进行准确分类。附图说明图1为本专利技术的流程图;图2为本专利技术利用像素语义相似性重建相邻特征图的示意图;图3为本专利技术用对比注意对重建的相邻特征图进行外观对齐的示意图;图4为本专利技术对残差单元添加正则化约束模块的示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。其中一个实施例中,提供了一种基于外观保持模块和三维卷积的运动物体分类方法,该方法通过外观保持模块在像素级对齐相邻的特征图,并使用后续的三维卷积在保持外观表现质量的前提下,对时间信息进行建模,并通过正则化约束增强了注意力机制的多样性,实现了在视频上对运动的物体进行准确分类结果。具体的,如图1所示,本实施例中的基于外观保持模块和三维卷积的运动物体分类方法,包括以下步骤:步骤S1、获取待检测的视频连续帧和对应的标签。对于每个运动物体视频轨迹,以8帧的步幅随机采样4帧以形成视频剪辑。每批包含8个目标,每个目标4个视频剪辑。步骤S2、将所有的视频帧调整到256×128像素,并使用水平翻转来增加数据。为了提高数据的处理速度和准确性,首先需要对获取的数据进行预处理,包括图像去噪、尺寸处理和数据增强等以增强模型的泛化能力。本文档来自技高网
...

【技术保护点】
1.一种基于外观保持模块和三维卷积的运动物体分类方法,其特征在于:包括以下步骤:/n步骤S1、获取待检测的视频连续帧和对应的标签;/n步骤S2、将所有的视频帧调整到256×128像素,并使用水平翻转来增加数据;/n步骤S3、利用像素语义相似性重建相邻特征图;/n步骤S4、利用对比注意对重建的相邻特征图进行外观对齐;/n步骤S5、利用与三维卷积结合的外观保持卷积形成的基本残差单元替换ResNet-50中的残差;/n步骤S6、对每一个残差单元,添加正则化约束模块实现注意力的多样性;/n步骤S7、将得到的特征向量输入至全连接网络得到针对待分类的预测分类结果。/n

【技术特征摘要】
1.一种基于外观保持模块和三维卷积的运动物体分类方法,其特征在于:包括以下步骤:
步骤S1、获取待检测的视频连续帧和对应的标签;
步骤S2、将所有的视频帧调整到256×128像素,并使用水平翻转来增加数据;
步骤S3、利用像素语义相似性重建相邻特征图;
步骤S4、利用对比注意对重建的相邻特征图进行外观对齐;
步骤S5、利用与三维卷积结合的外观保持卷积形成的基本残差单元替换ResNet-50中的残差;
步骤S6、对每一个残差单元,添加正则化约束模块实现注意力的多样性;
步骤S7、将得到的特征向量输入至全连接网络得到针对待分类的预测分类结果。


2.如权利要求1所述的基于外观保持模块和三维卷积的运动物体分类方法,其特征在于:步骤S3所述利用像素语义相似性重建相邻特征图,包括:
将获取的每个帧都视作中心帧并对其对应的相邻帧进行采样和零填充,将得到的中心特征图C和相邻特征图X使用1×1的语义映射函数降维,利用变换后的特征图C',特征图X'计算协方差矩阵:



其中c为特征图通道维度的大小,r是缩放因子用于将特征图的通道维度进行缩放,I是的单位矩阵,l=[1,1,1,1…]T是维向量。将P除以比例因子并通过Softmax激活函数得到相似性权重W,将权重系数W乘上原相邻特征图X得到初步重建的相邻特征图Y。


3.如权利要求1所述的基于外观保持模块和三维卷积的运动物体分...

【专利技术属性】
技术研发人员:郑建炜刘宇冯宇超陈婉君周鑫杰徐宏辉
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1