当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于场景片段和多模态特征增强的短视频分类方法技术

技术编号:34124884 阅读:13 留言:0更新日期:2022-07-14 13:57
本发明专利技术提供一种基于场景片段和多模态特征增强的短视频分类方法,涉及短视频分类技术领域;抓取短视频平台的短视频及其附加信息,对短视频数据进行标注以构建一个短视频数据集;将视频按照场景分割成多个场景片段,并提取出每个场景片段中的多模态信息,包括关键帧、音频和字幕;利用预训练的深度学习模型提取出各个模态特征;动态选择出短视频多个场景片段的同一类型模态中的信息密集型特征和信息稀疏型特征,并利用前者来增强后者语义,通过与原始特征连接获得视频粒度上增强后的模态特征;将视觉模态作为主导模态,其他模态作为辅助模态,将辅助模态中的特有性特征与主导模态连接,得到短视频分类结果。得到短视频分类结果。

A short video classification method based on scene segment and multimodal feature enhancement

【技术实现步骤摘要】
一种基于场景片段和多模态特征增强的短视频分类方法


[0001]本专利技术涉及短视频分类
,尤其涉及一种基于场景片段和多模态特征增强的短视频分类方法。

技术介绍

[0002]随着移动互联网和社交网络的迅速发展,短视频凭借其“短、快、精”的优势在社交网络上迅速传播,成为当前媒体结构的重要组成部分。研究表明,短视频数据呈现爆炸式的增长,人们迫切地需要从这些海量短视频中快速准确地找到有用的信息,而人类对这些非结构化、内容复杂的数据处理能力是有限的,因此需要智能化、自动化的技术对视频信息进行处理。
[0003]多模态融合是指整合多个模态的信息来完成分类或回归任务。短视频是视觉模态、声音模态和文本模态等多个模态的统一体。普遍认为,在观察同一个现象时引入多个模态会增强预测的健壮性,而且接触多个模态的信息,会更有可能捕捉到互补的信息,即只有某个模态特有的信息正好可以补充其他模态没有的信息。另外,多模态特征可以保证在缺失某一个模态时仍然可以有较好的性能。
[0004]因此,与传统视频的理解相比,短视频理解存在一些挑战。短视频本身是社交属性、视觉、声音、文本等多个模态的统一体,因此如何有效地从短视频的多个模态中提取特征并将其融合以充分挖掘其中的潜在信息从而完成短视频理解就显得非常重要。
[0005]经过调查发现,对一个短视频来说,在视频的不同场景片段中同一模态的贡献度是不同的,即每一模态在不同的时间点可能表现出不同形式和不同等级的噪声。由于用户在制作短视频时会添加一些包含其他意图的额外干扰信息,或由于拍摄条件的瞬间改变,或由于镜头转场,都会导致一个短视频不同时间段内的模态质量有所差异。因此需要一种技术对短视频的不同场景片段的模态进行分析,以有效解决短视频分类的问题。

技术实现思路

[0006]针对现有技术的不足,本专利技术提供一种基于场景片段和多模态特征增强的短视频分类方法。
[0007]一种基于场景片段和多模态特征增强的短视频分类方法,具体为以下步骤:
[0008]步骤1:爬取短视频平台的短视频及其附加信息,构建一个短视频数据集;附加信息包括视频描述、标签、视频时长、播放次数;
[0009]步骤1.1:选取短视频平台上一些粉丝数量较多的用户作为种子用户,爬取种子用户的粉丝列表的视频相关信息,包括视频描述、标签、视频时长、播放次数信息;
[0010]步骤1.2:对步骤1.1得到的视频相关信息中的标签提取特征,使用聚类算法K

means进行聚类,把越相似的标签聚成一簇;
[0011]步骤1.3:根据步骤1.2聚类得到的一些簇,人工定义每个簇所属类别,称之为类别关键词,如美食、萌宠、美妆;
[0012]步骤1.4:在短视频平台上搜索处输入步骤1.3的类别关键词,爬取搜索出的短视频及其附加信息,构建一个短视频数据集;
[0013]步骤2:将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态;
[0014]步骤2.1:使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多个场景片段,并保存分割时产生的关键帧图片作为视觉模态;
[0015]步骤2.2:使用开源视频分割工具从每个场景片段中分离出音频文件,作为声音模态;
[0016]步骤2.3:使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息,作为字幕模态;
[0017]步骤3:利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量,并统一保存到一个h5文件中;预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器;
[0018]步骤3.1:使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征,然后对每个场景片段的所有关键帧采用最大池化策略,最终为每个场景片段生成一个视觉模态特征向量;
[0019]步骤3.2:使用预训练的声音模态特征提取器来提取声音特征;然后对音频文件的特征采取最大池化,最终为每个场景片段生成一个声音模态特征向量;
[0020]步骤3.3:将每个场景片段的关键帧中的字幕连接成一个句子,然后使用预训练的文本特征提取器为从每个场景片段中的字幕信息生成一个字幕模态特征向量;
[0021]步骤3.4:将视觉、声音、字幕模态特征向量与该视频对应的类别保存到h5文件中;
[0022]步骤4:对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征,并利用信息密集型特征来增强信息稀疏型特征语义;将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征,连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征;
[0023]步骤4.1:根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示:
[0024][0025]其中,和分别表示第j个场景片段的模态m的原始特征向量、高级语义特征向量、激活函数和可训练的权重矩阵,m∈{v,a,s}分别表示视觉模态、声音模态和字幕模态;
[0026]步骤4.2:从多个场景片段的同一类型模态中,动态选择出信息密集型特征和信息稀疏性特征,所述的同一类型模态是指同为视觉模态或声音模态或字幕模态;
[0027]步骤4.2.1:初始化可学习的权重矩阵C表示类别数量,D
m
表示模态m的特征维度,计算多个场景片段的同一类型模态对应的权重矩阵的分数大小,所述同一类型
模态是指视觉模态或声音模态或字幕模态;
[0028][0029]其中,Q[α,β]表示矩阵Q中第α行第β列的权重值,表示第j个场景片段的模态m的权重矩阵的分数;
[0030]步骤4.2.2:计算多个场景片段的同一类型模态的分数最大的权重矩阵,表示为Z,该权重矩阵对应的特征为信息密集型的场景片段模态特征,表示为其他场景片段的该模态特征为稀疏型特征,表示为
[0031][0032]其中M为一个视频的场景片段的个数,Max表示求最大值函数;
[0033]步骤4.3:计算信息密集型特征与信息稀疏型特征之间的欧式距离计算所有信息密集型与信息稀疏型特征的欧式距离之和loss,将其作为损失函数,使信息稀疏型特征向信息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;
[0034][0035][0036]步骤4.4:根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征;
[0037]步骤4.4.1:将语义增强后的特征向量与语义增强前的特征向量连接,并输入两层神经网络中以学习更具有表达能力的特征向量即场景片段粒度;
[0038][0039][0040]其中conc表示连接函本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,具体包括以下步骤:步骤1:爬取短视频平台的短视频及其附加信息,构建一个短视频数据集;附加信息包括视频描述、标签、视频时长、播放次数;步骤2:将步骤1得到的短视频数据集中的每个短视频按照场景分割成多个场景片段,并提取出每个场景片段中的关键帧、音频和字幕分别作为视觉模态、声音模态和字幕模态;步骤3:利用预训练的深度学习模型分别对步骤2得到的视觉模态、声音模态和字幕模态提取特征向量,并统一保存到一个h5文件中;预训练的深度学习模型包括预训练的视觉、声音、文本模态特征提取器;步骤4:对多个场景片段中的视觉模态、声音模态和字幕模态分别动态选择出信息密集型特征和信息稀疏型特征,并利用信息密集型特征来增强信息稀疏型特征语义;将步骤3中提取的视觉、声音、字幕模态特征向量分别与对应的语义增强后的信息稀疏型特征连接输入到两层神经网络中学习更具有表达能力的视觉、声音、字幕模态特征,连接多个场景片段中更具有表达能力的特征获得视频粒度上增强后的视觉模态、声音模态和字幕模态特征;步骤5:将视频粒度上的视觉模态特征向量作为主导模态,视频粒度上的声音模态特征向量和字幕模态特征向量作为辅助模态,计算主导模态与辅助模态之间的关联性,获得辅助模态中与主导模态关联性不大的特有性分数向量,将辅助模态中的特有性分数向量作为主导模态的互补信息与主导模态连接成该视频的最终多模态融合特征向量进行短视频分类,从而得到短视频分类结果。2.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤1具体为:步骤1.1:选取短视频平台上一些粉丝数量较多的用户作为种子用户,爬取种子用户的粉丝列表的视频相关信息,包括视频描述、标签、视频时长、播放次数信息;步骤1.2:对步骤1.1得到的视频相关信息中的标签提取特征,使用聚类算法K

means进行聚类,把越相似的标签聚成一簇;步骤1.3:根据步骤1.2聚类得到的一些簇,人工定义每个簇所属类别,称之为类别关键词,如美食、萌宠、美妆;步骤1.4:在短视频平台上搜索处输入步骤1.3的类别关键词,爬取搜索出的短视频及其附加信息,构建一个短视频数据集。3.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤2具体为:步骤2.1:使用场景识别分割工具将短视频数据集中的每个短视频按照场景分割成多个场景片段,并保存分割时产生的关键帧图片作为视觉模态;步骤2.2:使用开源视频分割工具从每个场景片段中分离出音频文件,作为声音模态;步骤2.3:使用开源OCR工具从步骤2.1中获取的关键帧图片中提取出字幕信息,作为字幕模态。4.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤3具体为:步骤3.1:使用预训练的视觉模态特征提取器为每个关键帧提取视觉特征,然后对每个
场景片段的所有关键帧采用最大池化策略,最终为每个场景片段生成一个视觉模态特征向量;步骤3.2:使用预训练的声音模态特征提取器来提取声音特征;然后对音频文件的特征采取最大池化,最终为每个场景片段生成一个声音模态特征向量;步骤3.3:将每个场景片段的关键帧中的字幕连接成一个句子,然后使用预训练的文本特征提取器为从每个场景片段中的字幕信息生成一个字幕模态特征向量;步骤3.4:将视觉、声音、字幕模态特征向量与该视频对应的类别保存到h5文件中。5.根据权利要求1所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤4具体为:步骤4.1:根据步骤3中提取的视觉模态、声音模态和字幕模态的特征向量分别经过非线性变换获得其高级语义表示:其中,和分别表示第j个场景片段的模态m的原始特征向量、高级语义特征向量、激活函数和可训练的权重矩阵,m∈{v,a,s}分别表示视觉模态、声音模态和字幕模态;步骤4.2:从多个场景片段的同一类型模态中,动态选择出信息密集型特征和信息稀疏性特征,所述的同一类型模态是指同为视觉模态或声音模态或字幕模态;步骤4.3:计算信息密集型特征与信息稀疏型特征之间的欧式距离计算所有信息密集型与信息稀疏型特征的欧式距离之和loss,将其作为损失函数,使信息稀疏型特征向信息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;息密集型特征靠近,实现利用信息密集型特征增强信息稀疏型特征的语义;步骤4.4:根据语义增强前的多种模态特征和语义增强后的多种模态特征获得视频粒度上增强后的模态特征。6.根据权利要求5所述的一种基于场景片段和多模态特征增强的短视频分类方法,其特征在于,所述步骤4.2具体为:步骤4.2.1:初始化...

【专利技术属性】
技术研发人员:孔灿灿张博朱志良于海张伟
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1