一种基于外观保持模块和三维卷积的运动物体分类方法技术

技术编号：29255527 阅读：12 留言：0更新日期：2021-07-13 17:26

一种基于外观保持模块和三维卷积的运动物体分类方法，包括获取待检测的视频连续帧和标签并进行预处理；利用跨像素语义相似性重建每帧的相邻特征图；并通过对比注意力机制寻找重建图的不匹配区域以避免误差的传播；使用级联1×3×3的空间域卷积和3×1×1的时间域卷积代替传统3D卷积并将空间保持模块以并联级联混合的方式做残差级联，利用得到的残差网络提取特征；对注意力模块施加正则化约束维持多样性；将得到的特征图经过空间最大池化和时间平均池化得到特征向量输入至全连接网络得到针对待分类的预测分类结果。本发明专利技术实现了在视频上对运动的物体进行准确分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于外观保持模块和三维卷积的运动物体分类方法
本申请属于目标分类
，具体涉及运动物体分类方法。
技术介绍
随着深度学习的发展，图像分类和运动物体分类受到了广泛的关注。分析视频中所包含的物体的语义信息、理解其内容，对视频进行标注、分类和描述。大规模视频分类是继图像分类问题解决后下一个急需解决的关键问题。视频中的运动物体的分类比起静止的图像分类来说是一项非常具有挑战性的任务，如遮挡、模糊、运动轨迹难以捉摸，且包含额外的时间信息等。网络不仅可以访问单个静态图像中存在的外观信息，还可以访问它们复杂的时间演化。同时运动物体分类也更加具有价值，例如监控中的人员识别、无人机的识别扫描检测、自动驾驶汽车的行车记录仪等。运动物体分类的主要目标是理解视频中包含的运动的物体，确定运动物体的具体类别。运动物体分类将基于视频的语义内容如人类行为和复杂事件等，将视频中的不同物体的连续帧分类至单个或多个类别。运动物体分类不仅仅是要理解视频中的每一帧图像，更重要的是需要识别出能描述视频的少数几个关键目标。受人类注意力机制的启发，在运动物体分类当中应用注意力机制，可以在保持视频外观表示质量的前提下建模时间关系。在与三维卷积结合下可以有效地提取帧之间的时间信息。
技术实现思路
本专利技术要克服现有技术的上述缺点，提供基于外观保持模块和三维卷积的运动物体分类方法，通过外观保持模块在像素级对齐相邻的特征图，并使用后续的三维卷积在保持外观表现质量的前提下，对时间信息进行建模，并通过正则化约束增强了注意力机制的多样性，实现...

【技术保护点】
1.一种基于外观保持模块和三维卷积的运动物体分类方法，其特征在于：包括以下步骤：/n步骤S1、获取待检测的视频连续帧和对应的标签；/n步骤S2、将所有的视频帧调整到256×128像素，并使用水平翻转来增加数据；/n步骤S3、利用像素语义相似性重建相邻特征图；/n步骤S4、利用对比注意对重建的相邻特征图进行外观对齐；/n步骤S5、利用与三维卷积结合的外观保持卷积形成的基本残差单元替换ResNet-50中的残差；/n步骤S6、对每一个残差单元，添加正则化约束模块实现注意力的多样性；/n步骤S7、将得到的特征向量输入至全连接网络得到针对待分类的预测分类结果。/n

【技术特征摘要】
1.一种基于外观保持模块和三维卷积的运动物体分类方法，其特征在于：包括以下步骤：
步骤S1、获取待检测的视频连续帧和对应的标签；
步骤S2、将所有的视频帧调整到256×128像素，并使用水平翻转来增加数据；
步骤S3、利用像素语义相似性重建相邻特征图；
步骤S4、利用对比注意对重建的相邻特征图进行外观对齐；
步骤S5、利用与三维卷积结合的外观保持卷积形成的基本残差单元替换ResNet-50中的残差；
步骤S6、对每一个残差单元，添加正则化约束模块实现注意力的多样性；
步骤S7、将得到的特征向量输入至全连接网络得到针对待分类的预测分类结果。

2.如权利要求1所述的基于外观保持模块和三维卷积的运动物体分类方法，其特征在于：步骤S3所述利用像素语义相似性重建相邻特征图，包括：
将获取的每个帧都视作中心帧并对其对应的相邻帧进行采样和零填充，将得到的中心特征图C和相邻特征图X使用1×1的语义映射函数降维，利用变换后的特征图C'，特征图X'计算协方差矩阵：

其中c为特征图通道维度的大小，r是缩放因子用于将特征图的通道维度进行缩放，I是的单位矩阵，l＝[1,1,1,1…]T是维向量。将P除以比例因子并通过Softmax激活函数得到相似性权重W，将权重系数W乘上原相邻特征图X得到初步重建的相邻特征图Y。

3.如权利要求1所述的基于外观保持模块和三维卷积的运动物体分...

【专利技术属性】
技术研发人员：郑建炜，刘宇，冯宇超，陈婉君，周鑫杰，徐宏辉，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人