基于深度矩阵分解的短视频多标签分类方法技术

技术编号:35643796 阅读:17 留言:0更新日期:2022-11-19 16:36
本发明专利技术公开了一种基于深度矩阵分解的短视频多标签分类方法,该方法以深度矩阵分解为基本框架,通过深度矩阵分解中各层参数矩阵和潜在表征矩阵挖掘隐藏在短视频和标签之中的高级语义特征,通过编解码的思想强化潜在表征矩阵的表达能力;通过逆矩阵分析的方法将标签关联性信息在源端嵌入到短视频内容中,最后通过监督约束项引导参数矩阵和潜在表征矩阵的学习。与现有技术相比,本发明专利技术能从短视频中学习到复杂的结构化和层次化的有效信息,有效地挖掘短视频高级语义特征和标签关联性的短视频多标签分类方法。频多标签分类方法。频多标签分类方法。

【技术实现步骤摘要】
基于深度矩阵分解的短视频多标签分类方法


[0001]本专利技术涉及多媒体内容理解领域,特别是涉及一种短视频多标签分类方法。

技术介绍

[0002]随着信息化时代的来临,以社交平台和短视频为主的新兴媒体越来受到用户的青睐,尤其年轻人更喜欢通过短视频的方式展示个性和分享美好时刻。因此,视频内容理解成为了计算机视觉高级语义认知领域的重要研究方向,短视频多标签分类作为视频内容理解的重要研究方向,目前尚处于起步阶段。
[0003]与传统长视频不同,短视频通常是5s到15s的短平快视频,其拍摄角度,内容和时间较为随意。同时,短视频却在内容上呈现标签层级的复杂性(包括背景、动作和人物等),由于时长和内容的限制,如何通过有限的短视频信息刻画其代表的标签之间关联性成为重要的挑战。针对上述挑战,利用深度学习模型构建短视频内容理解模型,深度学习作为常用的视觉学习的主要工具,但具有参数量大和计算要求高等缺陷;也可以机器学习的角度构建深度模型学习短视频的复杂的结构化和层次性信息,但相关方法并不能像深度学习一样获取高效的内在特征。总之,如何通过短视频内容学习到其对应的复杂的标签信息,成为短视频多标签分类的重要挑战。
[0004]尽管如此,如何有效地学习到短视频内容的高级语义特征以及背后所蕴含的复杂的标签之间的关联性是多标签分类的重要研究方向。因此,如何实现一种有效地挖掘短视频高级语义特征和标签关联性的短视频多标签分类方法具有重要的应用价值。

技术实现思路

[0005]针对短视频多标签分类面临的高级语义特征挖掘和标签关联性学习的需求,本专利技术提出了一种基于深度矩阵分解的短视频多标签分类方法,以深度矩阵分解为基本框架,挖掘隐藏在短视频和标签之中的高级语义特征,强化潜在表征矩阵的表达能力,将标签关联性信息在源端嵌入到短视频,从而实现短视频多标签分类。
[0006]本专利技术通过以下技术方案实现:
[0007]一种基于深度矩阵分解的短视频多标签分类方法,该方法包括以下步骤:
[0008]步骤1、将短视频划分成单帧图像,按照等时间间隔的方式从短视频帧序列中抽取等量的关键帧;
[0009]步骤2、利用GoogLeNet InceptionV2网络从关键帧中提取短视频图像的深度特征;
[0010]步骤3、提取所有关键帧的深度特征构成短视频特征矩阵,其中行向量表示单帧图像的深度特征,深度特征矩阵则包含时序信息和空间信息;
[0011]步骤4、通过列向量均值化操作将短视频特征矩阵转化为短视频特征向量X;
[0012]步骤5、基于深度矩阵分解框架从短视频特征向量X中学习视觉表征矩阵U用于监督多标签分类任务,将分类任务凝聚成最终的视觉表征矩阵U;
[0013]步骤6、通过逆矩阵分析Ω
‑1的方式将标签向量矩阵L包含的标签关联性信息映射到短视频特征向量X中,基于深度矩阵分解框架挖掘具有标签关联性信息的判别表征矩阵V用于监督多标签分类任务;
[0014]步骤7、将视觉表征矩阵矩阵U和判别表征矩阵V联合在一起,通过深度矩阵分解的框架下强化表征矩阵的反向学习能力,将短视频特征向量X恢复成视觉表征矩阵矩阵U和判别表征矩阵V的哈达曼积
[0015]步骤8、从标签矩阵L中学习能反映关联性信息的标签表征矩阵A用于监督多标签分类任务;
[0016]步骤9、将视觉表征矩阵U、判别表征矩阵V,标签表征矩阵A和短视频的真实标签矩阵Q构成监督模块;
[0017]步骤10、将视觉表征矩阵U、判别表征矩阵V、短视频特征向量X、标签表征矩阵A构成总目标函数,用于预测当前出现的新的短视频的多标签分类;所述总目标函数的表达式如下所示:
[0018][0019]其中,表示视觉表征矩阵U和判别表征矩阵V的哈达曼积的转置,
[0020]表示F范数,k表示深度矩阵分解的层数,表示哈达曼积;D
i
表示第i层系数矩阵,D1…
D
k
表示多层系数矩阵,Z
i
表示第i层参数矩阵,L表示标签矩阵,Z1…
Z
k
表示多层参数矩阵,C1…
C
k
表示多层分解系数矩阵,C
i
表示第i层分解系数矩阵,L
T
表示标签向量矩阵L的转置矩阵。
[0021]与现有技术相比,本专利技术所能够达成的有益技术效果包括从短视频中学习到复杂的结构化和层次化的有效信息;有效地挖掘短视频高级语义特征和标签关联性的短视频多标签分类方法。
附图说明
[0022]图1为本专利技术的基于深度矩阵分解的短视频多标签分类方法整体流程图;
[0023]图2为本专利技术的基于深度矩阵分解的短视频多标签分类方法实施例图。
具体实施方式
[0024]下面结合附图和具体实施例对本专利技术技术方案作进一步详细描述。
[0025]如图1所示,为本专利技术的基于深度矩阵分解的短视频多标签分类方法整体流程图,该流程具体包括以下步骤:
[0026]步骤1、将短视频划分成单帧图像,按照等时间间隔的方式从短视频帧序列中抽取等量的关键帧,关键帧包含的信息表示短视频的内容;
[0027]步骤2、利用GoogLeNet InceptionV2网络从关键帧中提取图像的深度特征,将GoogLeNet InceptionV2的第一个全连接层的输出当做深度特征;
[0028]步骤3、提取所有关键帧的深度特征构成短视频特征矩阵,其中行向量表示单帧图
像的深度特征,深度特征矩阵则包含时序信息和空间信息;
[0029]步骤4、通过列向量均值化操作将短视频特征矩阵转化为特征向量X;
[0030]根据实际情况,在必要时可采用PCA算法对短视频的原始特征向量进行降维操作,进一步去除原始特征向量中包含的冗余信息和降低后续的计算量,得到最终的短视频特征向量X;
[0031]步骤5、基于深度矩阵分解框架从短视频特征向量X中学习视觉表征矩阵U用于监督多标签分类任务,将分类任务凝聚成最终的视觉表征矩阵U,本步骤的表达式如下所示:
[0032][0033]其中,B1…
B
k
表示多层分解系数矩阵,k表示多层分解系数矩阵的总层数,表示F范数和k表示深度矩阵分解的层数,U表示视觉表征矩阵;
[0034]步骤6、通过逆矩阵分析Ω
‑1的方式将标签向量矩阵L包含的标签关联性信息映射到短视频特征向量X中,基于深度矩阵分解框架挖掘具有标签关联性信息的判别表征矩阵V用于监督多标签分类任务,本步骤的表达式如下所示:
[0035][0036]其中,C1…
C
k
表示多层分解系数矩阵和判别表征矩阵V,C
i
表示第i层分解系数矩阵,L
T
表示标签向量矩阵L的转置;
[0037]步骤7、将视觉表征矩阵矩阵U和判别表征矩阵V联合在一起,通过深度矩阵分解的框架下强化表征矩阵的反本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度矩阵分解的短视频多标签分类方法,该方法包括以下步骤:步骤1、将短视频划分成单帧图像,按照等时间间隔的方式从短视频帧序列中抽取等量的关键帧;步骤2、利用GoogLeNet InceptionV2网络从关键帧中提取短视频图像的深度特征;步骤3、提取所有关键帧的深度特征构成短视频特征矩阵,其中行向量表示单帧图像的深度特征,深度特征矩阵则包含时序信息和空间信息;步骤4、通过列向量均值化操作将短视频特征矩阵转化为短视频特征向量X;步骤5、基于深度矩阵分解框架从短视频特征向量X中学习视觉表征矩阵U用于监督多标签分类任务,将分类任务凝聚成最终的视觉表征矩阵U;步骤6、通过逆矩阵分析Ω
‑1的方式将标签向量矩阵L包含的标签关联性信息映射到短视频特征向量X中,基于深度矩阵分解框架挖掘具有标签关联性信息的判别表征矩阵V用于监督多标签分类任务;步骤7、将视觉表征矩阵矩阵U和判别表征矩阵V联合在一起,通过深度矩阵分解的框架下强化表征矩阵的反向学习能力,将短视频特征向量X恢复成视觉表征矩阵矩阵U和判别表征矩阵V...

【专利技术属性】
技术研发人员:井佩光范富贵汪少初苏育挺王少一王晓华周树旺孙晓玮马海燕赵莉肖静王予凡宋玉霞石伟丽
申请(专利权)人:天津市测绘院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1