一种基于深度学习的短视频去重方法技术

技术编号:34734338 阅读:18 留言:0更新日期:2022-08-31 18:24
本发明专利技术公开了一种基于深度学习的短视频去重方法,包括:对待比较的目标视频和询问视频进行预处理,分别获得所述目标视频和所述询问视频的张量表示;利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量;构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练;将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值;利用所述相似度值判断是否删除所述目标视频和所述询问视频。本发明专利技术针对短视频去重、存储和管理的情形运用视频理解的算法计算视频重复度,解决了针对视频内容重复的短视频检测问题,收敛快,效率高。效率高。效率高。

【技术实现步骤摘要】
一种基于深度学习的短视频去重方法


[0001]本专利技术属于计算机
,具体涉及一种基于深度学习的短视频去重方法,可在短视频平台级视频数量条件下构建视频特征库,从而快速、高效地检测重复视频。

技术介绍

[0002]随着用户使用习惯的改变和网络环境的改善,短视频越来越受到大家的喜爱。对于观众来说,良好的观看体验与视频内容有着很大的关系。当前,全网范围内的主要精品视频主要来自MCN机构,一些公司为了更快更好地去覆盖全网内容,会选择和内容代理合作,而代理手上会有很多重复版权的内容,导致重复内容出现。另外,搬运视频也会导致重复内容出现,这些重复内容会造成极差的用户体验。再者,大量内容相似的视频对于短视频平台存储也是一个极大的挑战,为了不必要的资源浪费,对视频内容进行去重是非常有必要的。
[0003]目前对视频相似度对比主要有如下两种:(1)通过某一算法生成视频的关键帧,然后利用一些图像特征提取的算法计算图片的特征,把这些特征进行融合生成视频的特征,最后通过视频特征之间的匹配生成视频相似度。特征提取方式又分为基于传统手工特征提取方式和基于深度学习的方式,刘守群等人通过SIFT算法和LSH(局部敏感哈希,locality

sensetive hashing)的方式生成视频帧之间的匹配从而快速检测视频间的重复片段。特征的匹配又分为机器学习和深度学习的方式,宋晓康等人通过从重复视频特征数据库中选取特征组合成三元组,训练孪生神经网络,进一步减小重复视频之间的距离,同时对特征降维。(2)舍弃关键帧算法,利用视频理解模型(如I3D,Inflated 3D ConvNets,膨胀卷积网络)作为backbone(主干网络)直接提取特征,张跃宇等人利用I3D提取的第一特征获取描述距离的EMD(Earth Mover's Distance,推土距离)距离,利用EMD距离构建帧间相似矩阵并通过孪生神经网络训练得到视频之间的相似度。
[0004]然而对于镜头晃动,视频目标持续运动的视频提取的关键帧比较模糊,通过关键帧将视频降维成图像的方法不适用于手工提取特征。另外,对于视频画面中嵌入文字的视频,如果对关键帧进行角点检测(如SIFT),得到的特征点很可能会聚集在文字的边缘,无法反应视频原画面的特征。这时只能用深度学习的预训练模型对关键帧抽取中高层语义信息作为图片的特征,但是这种做法非常耗时,不适用于大规模视频数量场景。而且视频的多张关键帧包含了比较多的冗余信息,提取的特征也会包含大量冗余,这样会造成卷积神经网络的识别效果变差。对于使用光流的方法计算复杂度高,不适用于大规模短视频去重场景,此外,基于视频帧的去重方式没有考虑时间维度的特征,导致无法判别画面不同但内容相似的重复视频。

技术实现思路

[0005]为了解决现有技术中存在的上述问题,本专利技术提供了一种基于深度学习的短视频去重方法。本专利技术要解决的技术问题通过以下技术方案实现:
[0006]本专利技术提供了一种基于深度学习的短视频去重方法,包括:
[0007]对待比较的目标视频和询问视频进行预处理,分别获得所述目标视频和所述询问视频的张量表示;
[0008]利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量;
[0009]构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练,所述神经网络模型包括权重层、融合模块以及2D卷积神经网络模块,其中,所述权重层用于对所述目标视频和所述询问视频的时空特征向量分别进行加权,分别获得所述目标视频和所述询问视频的加权后时空特征向量,所述融合模块用于对所述目标视频和所述询问视频的加权后时空特征向量进行特征融合,获得融合后时空特征向量;所述2D卷积神经网络模块用于根据所述融合后时空特征向量获得所述目标视频和所述询问视频的相似度值;
[0010]将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值;
[0011]利用所述相似度值判断是否删除所述目标视频和所述询问视频。
[0012]在本专利技术的一个实施例中,对待比较的目标视频和询问视频并进行预处理,分别获得所述目标视频和所述询问视频的张量表示,包括:
[0013]对所述目标视频在时间维度上均匀提取多帧图像,去除所述多帧图像中相邻且结构相似的冗余图像,获得去除冗余图像后的多帧图像;
[0014]删除所述多帧图像中模糊度超过设定模糊度阈值的图像,获得去除模糊帧后的多帧剩余图像;
[0015]根据所述多帧剩余图像获得目标视频的张量表示;
[0016]依据所述目标视频的预处理过程对所述询问视频进行预处理,获得所述询问视频的张量表示。
[0017]在本专利技术的一个实施例中,去除所述多帧图像中相邻且结构相似的冗余图像,包括:
[0018]分别获得相邻帧图像的亮度相似度、对比度相似度以及结构相似度:
[0019][0020]其中,l(x,y)、c(x,y)和s(x,y)分别表示相邻两张灰度图在当前窗口下的亮度、对比度和结构之间的相似度,x和y为相邻帧图像灰度化后当前N
×
N窗口下各自的像素点集合,μ
x
为当前窗口中所有像素点x轴坐标的均值,μ
y
为当前窗口中所有像素点y轴坐标的均值,为当前窗口中所有像素点x轴坐标的方差,为当前窗口中所有像素点y轴坐标的方差,σ
xy
为当前窗口中所有像素点x轴坐标和y轴坐标的协方差,c1、c2和c3为常数;
[0021]获得相邻帧图像之间的总相似度值:
[0022]SSIM(x,y)=[l(x,y)
α
·
c(x,y)
β
·
s(x,y)
γ
],
[0023]其中,α、β、γ为设定的常数;
[0024]将相邻帧图像之间的总相似度值与设定的相似度阈值进行比较,若所述总相似度值大于设定的相似度阈值,则随机删除所述相邻帧图像中的一帧图像,对所述目标视频多帧图像的相邻帧图像两两进行比较,直到剩下所有相邻帧图像之间的总相似度值均小于所述相似度阈值。
[0025]在本专利技术的一个实施例中,利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量,包括:
[0026]将所述目标视频或询问视频中的预处理后的多帧图像分别输入预训练的Vision Transformer网络中得到每张图像的空间特征向量,随后将所述空间特征向量融合位置编码输入预训练Video transformer网络的时序特征编码器中,得到所述目标视频或所述询问视频的时空特征向量。
[0027]在本专利技术的一个实施例中,所述2D卷积神经网络包括依次连接的复制填充层、第一二维卷积层、复制填充层、第二二维卷积层、复制填充层、第三二维卷积层以及第四二维卷积层,其中,
[0028]每个复制填充层均用于对输入矩阵的四周填充一圈数值;
[0029本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的短视频去重方法,其特征在于,包括:对待比较的目标视频和询问视频进行预处理,分别获得所述目标视频和所述询问视频的张量表示;利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量;构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练,所述神经网络模型包括权重层、融合模块以及2D卷积神经网络模块,其中,所述权重层用于对所述目标视频和所述询问视频的时空特征向量分别进行加权,分别获得所述目标视频和所述询问视频的加权后时空特征向量,所述融合模块用于对所述目标视频和所述询问视频的加权后时空特征向量进行特征融合,获得融合后时空特征向量;所述2D卷积神经网络模块用于根据所述融合后时空特征向量获得所述目标视频和所述询问视频的相似度值;将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值;利用所述相似度值判断是否删除所述目标视频和所述询问视频。2.根据权利要求1所述的基于深度学习的短视频去重方法,其特征在于,对待比较的目标视频和询问视频并进行预处理,分别获得所述目标视频和所述询问视频的张量表示,包括:对所述目标视频在时间维度上均匀提取多帧图像,去除所述多帧图像中相邻且结构相似的冗余图像,获得去除冗余图像后的多帧图像;删除所述多帧图像中模糊度超过设定模糊度阈值的图像,获得去除模糊帧后的多帧剩余图像;根据所述多帧剩余图像获得目标视频的张量表示;依据所述目标视频的预处理过程对所述询问视频进行预处理,获得所述询问视频的张量表示。3.根据权利要求2所述的基于深度学习的短视频去重方法,其特征在于,去除所述多帧图像中相邻且结构相似的冗余图像,包括:分别获得相邻帧图像的亮度相似度、对比度相似度以及结构相似度:其中,l(x,y)、c(x,y)和s(x,y)分别表示相邻两张灰度图在当前窗口下的亮度、对比度和结构之间的相似度,x和y为相邻帧图像灰度化后当前N
×
N窗口下各自的像素点集合,μ
x
为当前窗口中所有像素点x轴坐标的均值,μ
y
为当前窗口中所有像素点y轴坐标的均值,为当前窗口中所有像素点x轴坐标的方差,为当前窗口中所有像素点y轴坐标的方差,σ
xy
为当前窗口中所有像素点x轴坐标和y轴坐标的协方差,c1、c2和c3为常数;获得相邻帧图像之间的总相似度值:SSIM(x,y)=[l(x,y)
α
·
c(x,y)
β
·
s(x,y)
γ
],其中,α、β、γ为设定的常数;将相邻帧图像之间的总相似度值与设定的相似度阈值进行比较,若所述总相似度值大
于设定的相似度阈值,则随机删除所述相邻帧图像中的一帧图像,对所述目标视频多帧图像的相邻帧图像两两进行比较,直到剩下所有相邻帧图像之间的总相似度值均小于所述相似度阈值。4.根据权利要求2所述的基于深度学习的短视频去重方法,其特征在于,利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量,包括:将所述目标视频或询问视频中的预处理后的多帧图像分别输入预训练的Vision Transformer网络中得到每张图像的空间特征向量,随后将所述空间特征向量融合位置编码输入预训练Video transformer网络的时序特征编码器中,...

【专利技术属性】
技术研发人员:刘怀亮傅子强赵舰波杨斌
申请(专利权)人:乐知未来科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1