一种基于多模态大数据的互联网短视频分类方法技术

技术编号:39246418 阅读:11 留言:0更新日期:2023-10-30 11:58
本发明专利技术涉及深度学习领域,具体涉及一种基于多模态大数据的互联网短视频分类方法,包括获取多模态短视频数据集,对数据集中的数据进行预处理,并针对数据存在的长尾现象进行重采样;对多模态短视频数据集中无标注的数据打上伪标签,并对打上标签后的数据转换为预训练格式;构建单流神经网络模型,使用无标注数据对单流模型进行预训练;构建双流神经网络模型,使用无标注数据对双流模型进行预训练;将预训练格式的数据输入到训练好的预训练模型进行分类,判断短视频的种类;本发明专利技术能够有效提高对短视频分类的预测准确率。对短视频分类的预测准确率。对短视频分类的预测准确率。

【技术实现步骤摘要】
一种基于多模态大数据的互联网短视频分类方法


[0001]本专利技术涉及深度学习领域,具体涉及一种基于多模态大数据的互联网短视频分类方法。

技术介绍

[0002]多模态是指两个或者两个以上的模态的各种形式的组合。对每一种信息的来源或者形式,都可以称为一种模态。模态特征融合是深度学习近些年兴起的课题,可以有效提升神经网络的学习能力和分类能力。多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。
[0003]一条短视频中通常包含有三种模态信息,即文本、音频、视频,它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。互联网产品的内容生态繁荣,创作者覆盖范围大,导致短视频数据中普遍存在着模态缺失、相关性弱、分类标签分布不均衡等问题,是实际应用中需要着重解决的技术难点。更好的短视频产品需要基于短视频数据以及对应的分类标签标注,采用合理的机器学习技术对指定的测试短视频进行分类预测。目前,对多模态数据的处理存在网络设计复杂,训练速度慢等问题,无法很好的发挥多模态特征融合的优势。

技术实现思路

[0004]为解决以上现有技术存在的问题,本专利技术提出了一种基于多模态大数据的互联网短视频分类方法,该方法包括以下步骤:
[0005]获取多模态短视频数据集,对数据集中的数据进行预处理,并针对数据存在的长尾现象进行重采样;
[0006]对多模态短视频数据集中无标注的数据打上伪标签,并对打上标签后的数据转换为预训练格式;
[0007]构建单流神经网络模型,使用无标注数据对单流模型进行预训练;
[0008]构建双流神经网络模型,使用无标注数据对双流模型进行预训练;
[0009]将预训练格式的数据分别输入到训练好的单、双流预训练模型,引入注意力机制计算单、双流输出的特征向量权重,对特征向量进行加权求和,通过对融合后的特征向量分类判断视频种类。
[0010]进一步的,对数据存在的长尾现象进行重采样时,训练开始时采样策略为样本均衡采样,即对视频较少的类别进行过采样或对视频较多的类别进行欠采样;随着训练的epoch数增加逐渐过渡为类别均衡采样;混合采样策略表示为:
[0011][0012]其中,表示采样策略为混合采样策略时类别j的采样概率;t为当前epoch
数,T为总epoch数,表示采样策略为样本均衡采样时类别j的采样概率,表示采样策略为类别均衡采样时类别j的采样概率,softmax表示进行归一化。
[0013]进一步的,对多模态短视频数据集中无标注的数据打上伪标签包括以下步骤:
[0014]将有标注的多模态数据中的文本数据视频标题Title、视频的音频转文本识别ASR、视频的OCR识别OCR直接进行拼接通过Embedding Layer得到对应的文本向量表达;
[0015]将视频模态数据输入CLIP模型得到对应的视频编码,将文本向量表达与视频编码输入到BERT中进行训练;
[0016]将无标注数据输入知识蒸馏模型得到每个无标注数据的标签R1;
[0017]用无标签数据检索有标签数据,截取top10样本的有标签数据将其对应的标签作为标签集合R2;
[0018]基于标签R1和标签集合R2中的标签进行投票,将票数最多的标签作为当前数据的伪标签。
[0019]进一步的,基于标签R1和标签集合R2进行投票的过程中,将根据标签R1在有标签数据中的数量设置其投票数,标签R1的投票数表示为:
[0020][0021]其中,Vote表示标签R1的投票数;floor()为向下取整的函数;exp(x)表示计算e
x
;表示R1标签在有标注数据中的样本数量,S表示有标注数据的总样本数。
[0022]进一步的,打上标签后的数据转换为预训练格式,即将数据中视频标题Title、视频的音频转文本识别ASR、视频的OCR识别OCR直接拼接然后选择长度L进行截断作为新的特征文本X,新的特征文本X表示为:
[0023]X={e1,e2,

,e
m
,x1,x2…
,x
n
,y1,y2,

,y
t
}
[0024]其中,m表示Title文本的长度,n表示ASR文本的长度,t表示OCR文本的长度分别为,e
i
表示Title文本位置i的字,x
i
表示ASR文本位置i的字,y
i
表示OCR文本位置i的字。
[0025]进一步的,长度L的计算包括:
[0026][0027]其中,(Title+ASR+OCR)
i
表示第i条样本视频标题Title、视频的音频转文本识别ASR、视频的OCR识别OCR拼接后的长度,N为样本总数。
[0028]进一步的,构建单流神经网络模型,使用无标注数据对单流模型进行预训练时,对单流模型中的CLIP模块的预训练过程包括以下步骤:
[0029]对单流模型中的CLIP模块进行训练时,将无标注样本的视频标题Title、视频的音频转文本识别ASR、视频的OCR识别OCR分别通过Embedding Layer层得到对应的embedding表示,将三个embedding拼接作为文本向量,得到I=(I1,I2,

,I
N
),其中I
i
表示第i个样本的文本向量;
[0030]将视频帧数据构成Video Frame送入CLIP VIT Encoder得到视频帧向量,得到T=
(T1,T2,

,T
N
),其中T
i
表示第i个样本的视频帧向量;
[0031]将文本向量I和视频帧向量T映射到joint multimodal space得到新的可直接进行比较的文本向量表示I

和视频帧向量表示T

,同时分别计算I

和T

中所有样本向量的平均向量I

和T


[0032]计算任意两个文本向量和视频帧向量的余弦相似度;
[0033]将I

中每个文本向量与T

中所有视频帧向量的相似度进行softmax归一化;
[0034]计算CLIP模块的损失函数,利用损失函数进行反向传播优化CLIP模块直到损失函数的值小于设置阈值,CLIP模块的损失函数表示为:
[0035][0036]其中,表示CLIP模块的损失函数;y
ij
表示I

中第i个文本向量与T

中第j个视频帧向量的相似度softmax归一值,k表示样本的个数;I

和T

分别是文本的平均向量和视频帧的平均向量。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态大数据的互联网短视频分类方法,其特征在于,具体包括以下步骤:获取多模态短视频数据集,对数据集中的数据进行预处理,并针对数据存在的长尾现象进行重采样;对多模态短视频数据集中无标注的数据打上伪标签,并对打上标签后的数据转换为预训练格式;构建单流神经网络模型,使用无标注数据对单流模型进行预训练;构建双流神经网络模型,使用无标注数据对双流模型进行预训练;将预训练格式的数据分别输入到训练好的单、双流预训练模型,引入注意力机制计算单、双流输出的特征向量权重,对特征向量进行加权求和,通过对融合后的特征向量分类判断视频种类。2.根据权利要求1所述的一种基于多模态大数据的互联网短视频分类方法,其特征在于,对数据存在的长尾现象进行重采样时,训练开始时采样策略为样本均衡采样,即对视频较少的类别进行过采样或对视频较多的类别进行欠采样;随着训练的epoch数增加逐渐过渡为类别均衡采样;混合采样策略表示为:其中,表示采样策略为混合采样策略时类别j的采样概率;t为当前epoch数,T为总epoch数,表示采样策略为样本均衡采样时类别j的采样概率,表示采样策略为类别均衡采样时类别j的采样概率,softmax表示进行归一化。3.根据权利要求1所述的一种基于多模态大数据的互联网短视频分类方法,其特征在于,对多模态短视频数据集中无标注的数据打上伪标签包括以下步骤:将有标注的多模态数据中的文本数据视频标题Title、视频的音频转文本识别ASR、视频的OCR识别OCR直接进行拼接通过Embedding Layer得到对应的文本向量表达;将视频模态数据输入CLIP模型得到对应的视频编码,将文本向量表达与视频编码输入到BERT中进行训练;将无标注数据输入知识蒸馏模型得到每个无标注数据的标签R1;用无标签数据检索有标签数据,截取top10样本的有标签数据将其对应的标签作为标签集合R2;基于标签R1和标签集合R2中的标签进行投票,将票数最多的标签作为当前数据的伪标签。4.根据权利要求3所述的一种基于多模态大数据的互联网短视频分类方法,其特征在于,基于标签R1和标签集合R2进行投票的过程中,将根据标签R1在有标签数据中的数量设置其投票数,标签R1的投票数表示为:其中,Vote表示标签R1的投票数;floor()为向下取整的函数;exp(x)表示计算e
x

表示R1标签在有标注数据中的样本数量,S表示有标注数据的总样本数。5.根据权利要求1所述的一种基于多模态大数据的互联网短视频分类方法,其特征在于,打上标签后的数据转换为预训练格式,即将数据中视频标题Title、视频的音频转文本识别ASR、视频的OCR识别OCR直接拼接然后选择长度L进行截断作为新的特征文本X,新的特征文本X表示为:X={e1,e2,

,e
m
,x1,x2…
,x
n
,y1,y2,

,y
t
}其中,m表示Title文本的长度,n表示ASR文本的长度,t表示OCR文本的长度分别为,e
i
表示Title文本位置i的字,x
i
表示ASR文本位置i的字,y
i
表示OCR文本位置i的字。6.根据权利要求5所述的一种基于多模态大数据的互联网短视频分类方法,其特征在于,长度L的计算包括:其中,(Title+ASR+OCR)
i
表示第i条样本视频标题Title、视频的音频转文本识别ASR、视频的OCR识别OCR拼接后的长度,N为样本总数。7.根据权利要求1所述的一种基于多模态大数据的互联网短视频分类方法,其特征在于,构建单流神经网络模型,使用无标注数据对单流模型进行预训练时,对单流模型中的CLIP模块的预训练过程包括以下步骤:对单流模型中的CLIP模块进行训练时,将无标注样本的视频标题Title、视频的音频转文本识别ASR、视频的OCR识别OCR分别通过Embedding Layer层得到对应的embedding表示,将三个embedding拼接作为文本向量,得到I=(I1,I2,

,I
N
),其中I
i
表示第i个样本的文本向量;将视频帧数据构成Video Frame送入CLIP VIT Encoder得到视频帧向量,得到T=(T1,T2,

,T
N
),其中T
i
表示第i个样本的视频帧向量;将文本向量I和视频帧向量T映射到joint multimodal space得到新的可直接进行比较的文本向量表示I

和视频帧向量表示T

,同时分别计算I

和T

中所有样本向...

【专利技术属性】
技术研发人员:宋金淼王进王一雄
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1