一种基于深度学习的短视频去重方法技术

技术编号：34734338 阅读：18 留言：0更新日期：2022-08-31 18:24

本发明专利技术公开了一种基于深度学习的短视频去重方法，包括：对待比较的目标视频和询问视频进行预处理，分别获得所述目标视频和所述询问视频的张量表示；利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量；构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练；将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值；利用所述相似度值判断是否删除所述目标视频和所述询问视频。本发明专利技术针对短视频去重、存储和管理的情形运用视频理解的算法计算视频重复度，解决了针对视频内容重复的短视频检测问题，收敛快，效率高。效率高。效率高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的短视频去重方法

[0001]本专利技术属于计算机
，具体涉及一种基于深度学习的短视频去重方法，可在短视频平台级视频数量条件下构建视频特征库，从而快速、高效地检测重复视频。

技术介绍

[0002]随着用户使用习惯的改变和网络环境的改善，短视频越来越受到大家的喜爱。对于观众来说，良好的观看体验与视频内容有着很大的关系。当前，全网范围内的主要精品视频主要来自MCN机构，一些公司为了更快更好地去覆盖全网内容，会选择和内容代理合作，而代理手上会有很多重复版权的内容，导致重复内容出现。另外，搬运视频也会导致重复内容出现，这些重复内容会造成极差的用户体验。再者，大量内容相似的视频对于短视频平台存储也是一个极大的挑战，为了不必要的资源浪费，对视频内容进行去重是非常有必要的。
[0003]目前对视频相似度对比主要有如下两种：(1)通过某一算法生成视频的关键帧，然后利用一些图像特征提取的算法计算图片的特征，把这些特征进行融合生成视频的特征，最后通过视频特征之间的匹配生成视频相似度。特征提取方式又分为基于传统手工特征提取方式和基于深度学习的方式，刘守群等人通过SIFT算法和LSH(局部敏感哈希，locality
‑
sensetive hashing)的方式生成视频帧之间的匹配从而快速检测视频间的重复片段。特征的匹配又分为机器学习和深度学习的方式，宋晓康等人通过从重复视频特征数据库中选取特征组合成三元组，训练孪生神经网络，进一步减小重复视频之间的距离，同时对特征降维。(2)舍弃关键帧算法，利...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的短视频去重方法，其特征在于，包括：对待比较的目标视频和询问视频进行预处理，分别获得所述目标视频和所述询问视频的张量表示；利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量；构造进行视频特征相似度判别的神经网络模型并对所述神经网络模型进行训练，所述神经网络模型包括权重层、融合模块以及2D卷积神经网络模块，其中，所述权重层用于对所述目标视频和所述询问视频的时空特征向量分别进行加权，分别获得所述目标视频和所述询问视频的加权后时空特征向量，所述融合模块用于对所述目标视频和所述询问视频的加权后时空特征向量进行特征融合，获得融合后时空特征向量；所述2D卷积神经网络模块用于根据所述融合后时空特征向量获得所述目标视频和所述询问视频的相似度值；将所述目标视频和所述询问视频的时空特征向量输入经训练的神经网络模型中获得所述目标视频和所述询问视频的相似度值；利用所述相似度值判断是否删除所述目标视频和所述询问视频。2.根据权利要求1所述的基于深度学习的短视频去重方法，其特征在于，对待比较的目标视频和询问视频并进行预处理，分别获得所述目标视频和所述询问视频的张量表示，包括：对所述目标视频在时间维度上均匀提取多帧图像，去除所述多帧图像中相邻且结构相似的冗余图像，获得去除冗余图像后的多帧图像；删除所述多帧图像中模糊度超过设定模糊度阈值的图像，获得去除模糊帧后的多帧剩余图像；根据所述多帧剩余图像获得目标视频的张量表示；依据所述目标视频的预处理过程对所述询问视频进行预处理，获得所述询问视频的张量表示。3.根据权利要求2所述的基于深度学习的短视频去重方法，其特征在于，去除所述多帧图像中相邻且结构相似的冗余图像，包括：分别获得相邻帧图像的亮度相似度、对比度相似度以及结构相似度：其中，l(x,y)、c(x,y)和s(x,y)分别表示相邻两张灰度图在当前窗口下的亮度、对比度和结构之间的相似度，x和y为相邻帧图像灰度化后当前N
×
N窗口下各自的像素点集合，μ
x
为当前窗口中所有像素点x轴坐标的均值，μ
y
为当前窗口中所有像素点y轴坐标的均值，为当前窗口中所有像素点x轴坐标的方差，为当前窗口中所有像素点y轴坐标的方差，σ
xy
为当前窗口中所有像素点x轴坐标和y轴坐标的协方差，c1、c2和c3为常数；获得相邻帧图像之间的总相似度值：SSIM(x,y)＝[l(x,y)
α
·
c(x,y)
β
·
s(x,y)
γ
]，其中，α、β、γ为设定的常数；将相邻帧图像之间的总相似度值与设定的相似度阈值进行比较，若所述总相似度值大
于设定的相似度阈值，则随机删除所述相邻帧图像中的一帧图像，对所述目标视频多帧图像的相邻帧图像两两进行比较，直到剩下所有相邻帧图像之间的总相似度值均小于所述相似度阈值。4.根据权利要求2所述的基于深度学习的短视频去重方法，其特征在于，利用预训练的神经网络分别获得所述目标视频和所述询问视频的时空特征向量，包括：将所述目标视频或询问视频中的预处理后的多帧图像分别输入预训练的Vision Transformer网络中得到每张图像的空间特征向量，随后将所述空间特征向量融合位置编码输入预训练Video transformer网络的时序特征编码器中，...

【专利技术属性】
技术研发人员：刘怀亮，傅子强，赵舰波，杨斌，
申请(专利权)人：乐知未来科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人