一种利用关键帧检索涉政视频的方法技术

技术编号:35594327 阅读:20 留言:0更新日期:2022-11-16 15:12
本发明专利技术公开了一种利用关键帧检索涉政视频的方法,包括视频输入、图像输入、文字提取、关键帧提取、特征提取、faiss库检索、结果返回,关键帧提取包括切帧处理、帧间差数值处理、平滑处理、差分值选取、图像处理,关键帧提取此模块采用帧间差法提取关键帧。原理为将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小。基于帧间差分的平均强度,通过本发明专利技术,该方法采用视频关键帧构建检索库,相比全部帧比对的方法,能够提高性能;该方法将涉政视频分类构建库,包含了先验标签,保证其结果准确;该方法在帧图像特征提取时采用ShuffleNet,该网络结构具有复杂网络的量化调整能力,高维特征提取能力强。高维特征提取能力强。高维特征提取能力强。

【技术实现步骤摘要】
一种利用关键帧检索涉政视频的方法


[0001]本专利技术涉及视频检索
,具体为一种利用关键帧检索涉政视频的方法。

技术介绍

[0002]视频内容审核一直是互联网发展中十分重要的一环,尤其当前互联网环境下每天都会产生海量的数据,大量数据的产出也就避免不了的会存在一些违规内容。涉政违规内容一直以来都是国家相关部门严厉打击的方向,但是由于涉政内容的多样性一直都十分依赖于人工审核,而人工审核的代价及成本也是目前存在的问题。由于近年来人工智能技术的发展,算法的不断优化、落地,让内容审核领域也迎来了智能化的希望,在众多行业方向中已经逐渐开始利用算法审核来代替人工审核。与此同时,视频的涉政内容审核也逐渐开始利用算法进行过滤,但是涉政内容的形式多样,例如违规涉政事件这一个子方向中就会有着若干种事件的分类,而且每个事件的内容都会有着较大的区别,导致很难拟合一个算法来进行过滤。因此利用关键帧进行视频检索就成为了一个新的方向,不过针对视频检索领域,当前的一些研究结果中虽然有着一些应用,但是在涉政内容的检索领域却很少有应用。因此,将视频检索技术应用在涉政内容审核领域也就有了重要的意义。
[0003]中国专利“CN114201646A”一种视频检索方法和系统,该方法基于ResNet深度神经网络提取待检索图片的深层特征向量,将提取到的特征向量数据运用Milvus向量搜索引擎从分布式的大数据存储系统中快速地检索出相似向量的结果集,基于该结果集进行分析处理,最终得到与带检索图片内容高度相似的视频文件。运用本专利技术的方法后,通过向检索系统输入一张含有嫌疑目标的图片,返回包含目标图片相似特征的视频文件。
[0004]中国专利“CN108133058A”一种视频检索方法及视频装置。获得第一视频集合;计算第一视频集合中的至少两种属性分类的信息熵,每种属性分类包括至少两个子分类;提示用户在信息熵最大的属性分类的子分类中进行选择。
[0005]中国专利“CN111581437A”一种视频检索方法及装置,用于提高视频表示的质量,提升视频检索的准确性。方法包括:获取目标视频的图像信息、音频信息和文本信息;根据所述目标视频的图像信息,确定所述目标视频的图像特征;根据所述目标视频的音频信息,确定所述目标视频的音频特征;根据所述目标视频的文本信息,确定所述目标视频的文本特征;对所述目标视频的图像特征、音频特征和文本特征进行融合,获得所述目标视频的综合特征;根据所述综合特征,进行所述目标视频与对照视频的相似度检索但现有处理设备存在以下不足:
[0006]中国专利“CN114201646A”一种视频检索方法和系统,该方法基于ResNet深度神经网络提取待检索图片的深层特征向量,将提取到的特征向量数据运用Milvus向量搜索引擎从分布式的大数据存储系统中快速地检索出相似向量的结果集,基于该结果集进行分析处理,最终得到与带检索图片内容高度相似的视频文件。运用本专利技术的方法后,通过向检索系统输入一张含有嫌疑目标的图片,返回包含目标图片相似特征的视频文件。该方法存在的缺陷主要是针对视频没有进行关键帧的筛选,导致的结果就是查找的图像需要和视频的每
一帧进行比对,在视频长度很大的情况下会非常的耗时。
[0007]中国专利“CN108133058A”一种视频检索方法及视频装置。获得第一视频集合;计算第一视频集合中的至少两种属性分类的信息熵,每种属性分类包括至少两个子分类;提示用户在信息熵最大的属性分类的子分类中进行选择。该方法的缺陷在于太依赖先验标签的构建,且与视频本身内容的关联性不大。
[0008]中国专利“CN111581437A”一种视频检索方法及装置,用于提高视频表示的质量,提升视频检索的准确性。方法包括:获取目标视频的图像信息、音频信息和文本信息;根据所述目标视频的图像信息,确定所述目标视频的图像特征;根据所述目标视频的音频信息,确定所述目标视频的音频特征;根据所述目标视频的文本信息,确定所述目标视频的文本特征;对所述目标视频的图像特征、音频特征和文本特征进行融合,获得所述目标视频的综合特征;根据所述综合特征,进行所述目标视频与对照视频的相似度检索。该方法的缺陷主要有两点,第一点是用来检索的输入必需是视频,限制了很多场景下的使用;第二点是视频本身的特征依赖于视频、音频、文本三个来源,若输入缺失某种数据源后会导致特征信息包含不足
[0009]所以我们提出了一种利用关键帧检索涉政视频的方法,以便于解决上述中提出的问题。

技术实现思路

[0010]本专利技术的目的在于提供一种利用关键帧检索涉政视频的方法,对收集的涉政视频数据集进行分类,并分别提取每个类别中视频的关键帧和文字,输入EfficientNet网络中提取特征向量并构建Faiss库。在使用时,针对输入可以是图像也可以是视频,若为视频,首先进行关键帧提取并且输入EfficientNet网络提取特征向量,后将提出的关键帧在不同类别涉政内容Faiss库中进行比对,每个库中选取比对结果Top1,若Top1结果的比对结果高于设定的阈值则将结果标签返回,以解决上述
技术介绍
提出的问题。
[0011]为实现上述目的,本专利技术提供如下技术方案:一种利用关键帧检索涉政视频的方法,包括视频输入、图像输入、文字提取、关键帧提取、特征提取、faiss库检索、结果返回,所述关键帧提取包括切帧处理、帧间差数值处理、平滑处理、差分值选取、图像处理,所述关键帧提取此模块采用帧间差法提取关键帧。原理为将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小。基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧。
[0012]所述关键帧提取包括以下五个步骤操作:
[0013]S1:将输入视频按顺序做切帧处理,切帧完成后每一帧进行高斯滤波处理;
[0014]S2:将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算,对结果进行二值化后矩阵数值相加为其帧间差分值;
[0015]S3:对上一步差分值列表进行标准化平滑处理;S4:利用滑动窗口方式进行最大差分值选取,并按照其下标获取原始帧数据;S5:将上述提取的关键帧图像大小放缩至224*224并做归一化处理。
[0016]优选的,所述特征提取包括确认网路结构、确定模型损失函数、处理模块,所述特征提取是将图片输入预训练好的深度学习模型ShuffleNetV1,抽取中间表示层的特征,得
到特征向量。
[0017]所述特征提取三个步骤操作方法:
[0018]S1:确定网络结构。网络结构采用3x3的卷积和maxpool。然后是三个阶段,每个阶段都是重复堆积了几个ShuffleNet的基本单元。对于每个阶段,第一个基本单元采用的是stride=2,这样特征图width和height各降低一半,而通道数增加一倍。后面的基本单元都是stride=1,特征图和通道数都保持不变。对于stride=2的基本单元,由于原输入会贡献一部分最终输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用关键帧检索涉政视频的方法,其特征在于:包括视频输入、图像输入、文字提取、关键帧提取、特征提取、faiss库检索、结果返回,所述关键帧提取包括切帧处理、帧间差数值处理、平滑处理、差分值选取、图像处理,所述关键帧提取此模块采用帧间差法提取关键帧。原理为将两帧图像进行差分,得到图像的平均像素强度可以用来衡量两帧图像的变化大小。基于帧间差分的平均强度,每当视频中的某一帧与前一帧画面内容产生了大的变化,提取作为关键帧。所述关键帧提取包括以下五个步骤操作:S1:将输入视频按顺序做切帧处理,切帧完成后每一帧进行高斯滤波处理;S2:将视频原始的每一帧和前一帧(若输入为第一帧时复制该帧做为前帧进行处理)首先进行绝对值差分计算,对结果进行二值化后矩阵数值相加为其帧间差分值;S3:对上一步差分值列表进行标准化平滑处理;S4:利用滑动窗口方式进行最大差分值选取,并按照其下标获取原始帧数据;S5:将上述提取的关键帧图像大小放缩至224*224并做归一化处理。2.根据权利要求1所述的一种利用关键帧检索涉政视频的方法,其特征在于:所述特征提取包括确认网路结构、确定模型损失函数、处理模块,所述特征提取是将图片输入预训练好的深度学习模型ShuffleNet V1,抽取中间表示层的特征,得到特征向量。所述特征提取三个步骤操作方法:S1:确定网络结构。网络结构采用3x3的卷积和max pool。然后是三个阶段,每个阶段都是重复堆积了几个ShuffleNet的基本单元。对于每个阶段,第一个基本单元采用的是stride=2,这样特征图width和height各降低一半,而通道数增加一倍。后面的基本单元都是stride=1,特征图和通道数都保持不变。对于stride=2的基本单元,由于原输入会贡献一部分最终输出的通道数,那么在计算1/4时使用未concat之前的通道数。其中group convolution中的分组数越多,在相同计算资源下,可以使用更多的通道数,所以越大时,采用了更多的卷积核。当完成三阶段后,采用global pool将特征图大小降为1x1,最后是输出类别预测值的全连接层,该全连接层维...

【专利技术属性】
技术研发人员:孟繁中王克斌吴登伟郑丽裴宜春赵晋宁常晏鹏何洪流李怡辰李佳张良党向磊胡燕林孙笑科吴昊暴恒
申请(专利权)人:长安通信科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1