一种视频审核方法和服务器技术

技术编号:26178856 阅读:40 留言:0更新日期:2020-10-31 14:31
本发明专利技术公开了一种视频审核方法,在服务器中执行,包括:将待审核的视频文件切分为多个时段的视频子文件,该多个视频子文件具有优先级顺序;从第一优先级的视频子文件中提取音频子文件,计算该音频子文件所对应的文本信息的违规概率,并采用该违规概率所对应的切帧间隔对同时段的视频子文件进行切帧,得到包括多个图片帧的图片子文件;通过计算每个图片帧的违规概率来确定图片子文件的违规概率;综合两种违规概率确定中间时段的视频子文件的违规概率;若该违规概率大于等于第一阈值,则判定视频文件违规,反之,则按照优先级顺序继续判定其他优先级的视频子文件的违规概率,以确定视频文件是否违规。本发明专利技术还公开了用于执行该方法的服务器。

【技术实现步骤摘要】
一种视频审核方法和服务器
本专利技术涉及视频
,尤其涉及一种视频审核方法和服务器。
技术介绍
视频是信息内容常用的展现形式,且在当下生活照占据越来越重要的地位。根据法律法规的相关规定,视频在传播到公众之前,需要依法进行内容审核,审核包括垃圾信息、涉政、暴力、恐怖、辱骂、色情、违禁及其他类型的不合格不合法的视频,禁止此类视频传播,避免造成不良的社会影响。由此可见,视频审核是信息审核的不可缺少的一步。目前有完全的人工视频审核,或者通过计算机学习算法对视频内容进行辅助审核,机器学习算法先将视频逐帧地分解后再进行违规判定,然后再将违规概率高的视频交由人工进行复审。这些方式都比较费时费力、效率有限。因此需要一种更准确而且高效的视频审核方法。
技术实现思路
鉴于上述问题,本专利技术提出了一种视频审核方法和服务器,以力图解决或者至少解决上面存在的问题。根据本专利技术的一个方面,提供了一种视频审核方法,适于在服务器中执行,该方法包括步骤:获取待审核的视频文件,将视频文件切分为多个时段的视频子文件,该多个视频子文件具有优先级顺序,该优先级从中间时段向两端递减;从第一优先级的视频子文件中提取音频子文件,将所述音频子文件转换为文本信息;计算文本信息的违规概率,确定该违规概率所对应的切帧间隔,并采用该切帧间隔对同时段的视频子文件进行切帧,得到包括多个图片帧的图片子文件;通过计算每个图片帧的违规概率来确定图片子文件的违规概率;综合文本信息和图片子文件的违规概率来确定第一优先级的视频子文件的违规概率;若该违规概率大于等于第一阈值,则判定视频文件违规,反之,则按照优先级顺序继续判定其他优先级的视频子文件的违规概率,以确定视频文件是否违规。可选地,在根据本专利技术的视频审核方法中,将所述视频文件切分为多个时段的视频子文件的步骤包括:将视频子文件切分为三个时段的视频子文件,该三个时段的优先级顺序为:第二时段、第三时段和第二时段;或者将视频子文件切分为五个时段的视频子文件,该五个时段的优先级顺序为:第三时段、第四时段、第二时段、第五时段和第一时段。可选地,在根据本专利技术的视频审核方法中,将音频子文件转换为文本信息的步骤包括:去除音频子文件中的环境音和背景音,提取人声,通过对该人声语音识别后,转换为对应的文本信息。可选地,在根据本专利技术的视频审核方法中,服务器中存储有违规文本库,该违规文本库包括多条违规文本,计算文本信息的违规概率的步骤包括:将文本信息切分为多个单句,分别计算单句与多条违规文本的匹配度,并基于该单句的匹配度确定文本信息的违规概率。可选地,在根据本专利技术的视频审核方法中,文本信息的违规概率与切帧间隔的关系包括以下任意一种方式:切帧间隔与文本信息的违规概率负相关;若文本信息的违规概率小于第二阈值,则采取第一切帧间隔,反之则采用第二切帧间隔;若文本信息的违规概率小于第二阈值或大于第三阈值,则采取第一切帧间隔,反之则采用第二切帧间隔;其中,第一切帧间隔大于第二切帧间隔。可选地,在根据本专利技术的视频审核方法中,还包括步骤:获取匹配度高的单句在所述音频子文件中的时间段,将该时间段标记为第一关键时段,并缩小第一关键时段的图片切帧间隔。可选地,在根据本专利技术的视频审核方法中,在得到包括多个图片帧的图片子文件之后,还包括步骤:计算该图片子文件中相邻两个图片帧的相似度,若该相似度大于等于第四阈值,则将其中一个图片帧从该图片子文件中剔除。可选地,在根据本专利技术的视频审核方法中,服务器中存储有样本图片库,样本图片库包含多张违规的样本图片,通过计算每个图片帧的违规概率来确定图片子文件的违规概率的步骤包括:分别计算图片帧与多张样本图片的匹配度,基于该多个匹配度确定图片帧的违规概率,并综合每个图片帧的违规概率来确定图片子文件的违规概率。可选地,在根据本专利技术的视频审核方法中,多张样本图片归属于多个违规类别,该方法还包括步骤:对于违规概率高的图片帧,通过统计该图片帧与同一类的多张样本图片的匹配度来确定该图片帧的违规类别。可选地,在根据本专利技术的视频审核方法中,还包括步骤:获取违规概率高的图片帧在图片子文件的时间段,将该时间段标记为第二关键时段;综合第一关键时段和第二关键时段确定视频子文件的关键时段,以进行信息记录。可选地,在根据本专利技术的视频审核方法中,按照优先级顺序继续判定其他优先级的视频子文件的违规概率步骤包括:若按照优先级顺序确定某一优先级的视频子文件的违规概率大于等于第一阈值,则判定视频文件违规,反之则继续下一优先级的视频子文件的违规概率判定。根据本专利技术的另一方面,提供一种服务器,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序被处理器执行时实现如上所述的视频审核方法的步骤。根据本专利技术的又一方面,提供一种存储一个或多个程序的可读存储介质,该一个或多个程序包括指令,所述指令当由服务器执行时实现如上所述的视频审核方法的步骤。根据本专利技术的技术方案,采用自动审核的方式对视频信息进行审核,首先将一段视频文件划分为多个视频子文件,考虑到涉嫌违规的内容一般较少位于视频前段和视频后段,因此本专利技术优先处理处于中间时段的视频。而且,考虑到一段视频的文本识别相比于图片识别更为高效,因此本专利技术先对该视频中断的音频进行语音识别后转换为文字,并识别该文字的违规概率。如果文字违规概率高,则同时段的图片切帧间隔可以适当小些,反之则可以适当大些,这样有效降低图片处理量和处理效率。进一步地,对于切帧出的图片,本专利技术还可以计算相邻图片的相似度,若相邻图片相似度比较高,则可以直接剔除图片,进一步降低后续的图像匹配量。而且,本专利技术还可以记录违规概率高的单句时段,处于该单句时段的切帧间隔可以适当缩小。同时,本专利技术还可以记录违规概率高的单句时段和图片帧所在时段,并重点记录这些时段的视频信息,以便后续核验。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一个实施例的服务器100的结构框图;图2示出了根据本专利技术一个实施例的视频审核方法200的流程图;图3示出了根据本专利技术另一个实施例的视频审核方法的流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实本文档来自技高网...

【技术保护点】
1.一种视频审核方法,适于在服务器中执行,所述方法包括步骤:/n获取待审核的视频文件,将所述视频文件切分为多个时段的视频子文件,该多个视频子文件具有优先级顺序,所述优先级从中间时段向两端递减;/n从第一优先级的视频子文件中提取音频子文件,将所述音频子文件转换为文本信息;/n计算所述文本信息的违规概率,确定该违规概率所对应的切帧间隔,并采用该切帧间隔对同时段的视频子文件进行切帧,得到包括多个图片帧的图片子文件;/n通过计算每个图片帧的违规概率来确定所述图片子文件的违规概率;/n综合所述文本信息和图片子文件的违规概率来确定第一优先级的视频子文件的违规概率;/n若该违规概率大于等于第一阈值,则判定所述视频文件违规,反之,则按照优先级顺序继续判定其他优先级的视频子文件的违规概率,以确定所述视频文件是否违规。/n

【技术特征摘要】
1.一种视频审核方法,适于在服务器中执行,所述方法包括步骤:
获取待审核的视频文件,将所述视频文件切分为多个时段的视频子文件,该多个视频子文件具有优先级顺序,所述优先级从中间时段向两端递减;
从第一优先级的视频子文件中提取音频子文件,将所述音频子文件转换为文本信息;
计算所述文本信息的违规概率,确定该违规概率所对应的切帧间隔,并采用该切帧间隔对同时段的视频子文件进行切帧,得到包括多个图片帧的图片子文件;
通过计算每个图片帧的违规概率来确定所述图片子文件的违规概率;
综合所述文本信息和图片子文件的违规概率来确定第一优先级的视频子文件的违规概率;
若该违规概率大于等于第一阈值,则判定所述视频文件违规,反之,则按照优先级顺序继续判定其他优先级的视频子文件的违规概率,以确定所述视频文件是否违规。


2.如权利要求1所述的方法,其中,所述将所述视频文件切分为多个时段的视频子文件的步骤包括:
将所述视频文件切分为三个时段的视频子文件,该三个时段的优先级顺序为:第二时段、第三时段和第二时段;或者
将所述视频文件切分为五个时段的视频子文件,该五个时段的优先级顺序为:第三时段、第四时段、第二时段、第五时段和第一时段。


3.如权利要求1或2所述的方法,其中,所述将所述音频子文件转换为文本信息的步骤包括:
去除所述音频子文件中的环境音和背景音,提取人声,通过对该人声语音识别后,转换为对应的文本信息。


4.如权利要求1-3中任一项所述的方法,其中,所述服务器中存储有违规文本库,所述违规文本库包括多条违规文本,所述计算所述文本信息的违规概率的步骤包括:
将所述文本信息切分为多个单句,分别计算所述单句与所述多条违规文本的匹配度,并基于该单句的匹配度确定所述文本信息的违规概率。


5.如权利要...

【专利技术属性】
技术研发人员:范鑫钟湧睿
申请(专利权)人:北京齐尔布莱特科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1