一种视频物体分类方法及装置制造方法及图纸

技术编号：26690531 阅读：20 留言：0更新日期：2020-12-12 02:41

本申请公开了一种视频物体分类方法及装置，该方法中提取目标视频中的关键帧，并利用预设卷积神经网络对关键帧进行图像特征提取得到多层特征图，对各层特征图包含的局部特征进行加权融合得到融合特征，对融合特征进行降维处理得到降维结果，对降维结果进行聚类得到关键帧包含的所有像素的分类结果。由于在得到融合特征后对融合特征进行降维处理得到降维结果，避免了使用fc‑lstm结构进行分类，可有效的学出视频数据之间的时间和空间依赖性，使得降维结果中携带有空间时序特性，可以对于有多物体做复杂移动的复杂场景无法产生有效的分类，同时基于聚类方法的算法特质实现对单帧图像的像素级分割得到分类结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频物体分类方法及装置
本申请涉及视频物体分类领域，尤其涉及一种视频物体分类方法及装置。
技术介绍
目前，对视频场景中的物体进行分类至关重要，为了实现对视频数据中物体进行分类需要在处理好单帧图片的空间维度信息的基础上能够联系上下文语境。然而现有技术中的分类方法由于其仅能对一维向量进行映射导致其极易丢失单帧图片中的空间相关性，也就无法联系上下文语境，导致其只能对具有简单强线性特征的视频数据进行分类，而对于有多物体做复杂移动的复杂场景无法产生有效的分类。
技术实现思路
本申请提供一种视频物体分类方法及装置，以实现对于有多物体做复杂移动的复杂场景无法产生有效的分类。第一方面，本申请提供了一种视频物体分类方法，所述方法包括：提取目标视频中的关键帧，并利用预设卷积神经网络对所述关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同；对所述各层特征图包含的局部特征进行加权融合得到融合特征；对所述融合特征进行降维处理得到降维结果，其中，所述降维结果中携带有空间时序特...

【技术保护点】
1.一种视频物体分类方法，其特征在于，包括：/n提取目标视频中的关键帧，并利用预设卷积神经网络对所述关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同；/n对所述各层特征图包含的局部特征进行加权融合得到融合特征；/n对所述融合特征进行降维处理得到降维结果，其中，所述降维结果中携带有空间时序特性；/n对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果。/n

【技术特征摘要】
1.一种视频物体分类方法，其特征在于，包括：
提取目标视频中的关键帧，并利用预设卷积神经网络对所述关键帧进行图像特征提取得到多层特征图，其中，各层特征图包含的局部特征不同；
对所述各层特征图包含的局部特征进行加权融合得到融合特征；
对所述融合特征进行降维处理得到降维结果，其中，所述降维结果中携带有空间时序特性；
对所述降维结果进行聚类得到所述关键帧包含的所有像素的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述提取目标视频中的关键帧的步骤，包括：
确定聚类类别个数m，提取所述目标视频中的每个视频帧的颜色特征值，其中，m为正整数；
从提取的颜色特征值中选取m个颜色特征值分别作为m个类别的聚类中心；
将所述目标视频帧中的第一帧视频帧作为当前视频帧，计算所述当前视频帧的颜色特征值到各聚类中心之间的欧式距离，将所述当前视频帧划分到距离自身的欧式距离最小的聚类中心所在的类别中，计算该类别包含的所有视频帧的颜色特征值的算数平均值，并将所述算数平均值更新为该类别的聚类中心；
将所述当前视频帧的下一视频帧作为当前视频帧，返回执行所述计算所述当前视频帧的颜色特征值到各聚类中心之间的欧式距离的步骤，直至所有视频帧分类完成，将各类别中距离该类别的聚类中心的欧氏距离最小的视频帧作为关键帧。

3.根据权利要求1所述的方法，其特征在于，所述预设卷积神经网络为利用ImageNet数据库进行训练所形成的卷积神经网络。

4.根据权利要求1-3中任一所述的方法，其特征在于，所述对所述各层特征图包含的局部特征进行加权融合得到融合特征的步骤，包括：
利用双向特征金字塔网络对所述关键帧的各层特征图包含的局部特征进行加权融合得到融合特征。

5.根据权利要求1所述的方法，其特征在于，所述对所述融合特征进行降维处理得到降维结果的步骤，包括：
采用自表达子空间聚类算法以及长短期记忆人工神经网络对所述融合特征进行降维处理得...

【专利技术属性】
技术研发人员：王成，许迪，俞益洲，李一鸣，乔昕，
申请(专利权)人：北京深睿博联科技有限责任公司，杭州深睿博联科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人