一种产品展示视频自动化审核方法和系统技术方案

技术编号:31828239 阅读:54 留言:0更新日期:2022-01-12 13:00
一种产品展示视频自动化审核方法,S1:输入卖家上传视频,获取视频基础信息;S2:将视频输入视频质量分析模块进行视频质量分析,利用时序多层神经网络与时序语音噪声分析网络对视频画面抖动情况与视频语音噪声情况进行评分;S3:将视频拆分,划分为图像部分与语音部分,图像部分根据一帧/秒拆分为多帧图片集;S4:将拆分的图片集依次输入视频图片侵权信息审核模块进行侵权信息审核,利用侵权信息审核模块中的多层神经网络检测图片中是否存在侵权信息;S5:将拆分的图片集依次输入视频图片涉黄信息审核模块进行涉黄信息审核;S6:将拆分的图片集依次输入视频图片文字信息审核模块进行文字信息审核。块进行文字信息审核。块进行文字信息审核。

【技术实现步骤摘要】
一种产品展示视频自动化审核方法和系统


[0001]本专利技术涉及视频审核领域,特别是涉及一种产品展示视频自动化审核方法和系统。

技术介绍

[0002]由于视频具有全面直观、视听觉展示效果好的优点,电商平台上卖家已积极开展产品视频介绍,宣传效果显著。因此,一段时间内,视频展示将成为商品展示的热点方式之一。
[0003]电商平台产品量大,卖家每日上传的展示视频量巨大,与此同时,展示视频的质量参差不齐,部分视频抖动严重、背景噪声大,用户体验较差,部分视频存在违规信息,例如侵权信息、暴恐标语、黄色信息等,大量视频需依靠人工进行审核,人力投入大,审核效率低下,待展示时间长,严重影响产品及时展示。
[0004]现有的视频自动化审核方法如CN 2018108250709一种基于视频监控的日志识别视频回放系统,包括系统处理模块,所述系统处理模块与监控视频提取系统实现双向连接,且监控视频提取系统包括提取信息处理模块、日志检索识别模块、提取视频分析模块和提取视频发送模块,所述提取信息处理模块的输出端与日志检索识别模块的输入端连接,涉及视频监控
该基于视频监控的日志识别视频回放系统,可大大提高提取效率,无需监控人员花费大量的时间来提取视频数据,但这种应用无法检查图像的内容,并不能保证监控安全检查工作的质量。
[0005]CN2019800458824提供的在视频编码或解码系统中的视频处理方法和装置,用于处理被分割成具有一个或多个分割约束的块的视频图像。视频编码或解码系统接收当前块的输入数据,以及检查是否允许根据第一和第二约束使用预定义的分割类型对当前块进行分割。第一约束将从当前块分割的每个子块限制为完全包含在一个管线单元中,以及第二约束限制从当前块分割的每个子块包含一个或多个完整的管线单元。管线单元是设计用于管线处理的视频图像中的非重叠单元。如果由预定义分割类型分割的任一子块违反第一和第二约束,则当前块不由预定义分割类型分割。
[0006]尽管图像目标检测任务有所进展,检测性能得到明显提升。但在视频监控、车辆辅助驾驶等领域,基于视频的目标检测有着更为广泛的需求。由于视频中存在运动模糊,遮挡,形态变化多样性,利用图像目标检测技术得到完备的检测是十分重要的,如利用视频中目标时序信息和上下文等信息成为提升视频目标检测性能。对于视频目标检测来说,一个好的检测器不仅要保证在每帧图像上检测准确,还要保证检测结果具有一致性/连续性(即对于一个特定目标,优秀的检测器应持续检测此目标并且不会将其与其他目标混淆,称之为视频目标检测时序一致性)。
[0007]视频目标检测算法目前主要使用了如下的框架:将视频帧视为独立的图像,利用图像目标检测算法获取检测结果;利用视频的时序信息和上下文信息对检测结果进行修正;基于高质量检测窗口的跟踪轨迹对检测结果进一步进行修正。但卷积神经网络基于深
度学习的方法更能够高效和有质量的满足现有技术不能解决的问题。
[0008]本专利技术针对上述情况,采用一种视频自动化审核方法和系统,利用深度学习技术,对违规视频或质量较差的视频进行拦截,由网站审核人员进行人工复审,复审有问题则通知视频上传人进行修改,对于合格视频则直接在网站中展示。本方法及系统有助于提高审核效率,节省大量人力,加快了卖家视频展示速度,提高用户体验与网站整体质量。

技术实现思路

[0009]本专利技术所要解决的技术问题是克服现有技术的不足,提供一种产品展示视频自动化审核方法及系统。
[0010]为解决上述技术问题,本专利技术提供一种多层次融合的视频审核方法,其特征在于,包括如下步骤:
[0011]步骤一:输入卖家上传视频,获取视频基础信息;
[0012]步骤二:将视频输入视频质量分析模块,利用视频质量分析模块中时序多层神经网络分析视频整体质量,对视频抖动情况进行打分,利用视频质量分析模块中时序语音噪声分析网络判断视频语音噪声水平,对噪声情况进行打分。
[0013]步骤三:将视频拆分,划分为图像部分与语音部分,图像部分根据一帧/秒拆分为多帧图片集,语音部分降噪后保留全部;
[0014]步骤四:将视频帧图片输入侵权信息审核模块,利用侵权信息审核模块中的多层神经网络检测图片中是否存在侵权信息,若存在,则记录侵权信息及其在图中所在位置;
[0015]步骤五:将视频帧图片输入涉黄信息审核模块,利用涉黄信息审核模块中的多层神经网络抽取图片特征信息,判断输入图片是否属于黄色图片类别,若属于黄色图片,则记录相应信息;
[0016]步骤六:将视频帧图片输入文字信息审核模块,利用文字信息审核模块中的文字检测与文字识别模型,先在图片中检测出是否存在文字,若存在,定位文字位置;将文字截取输入文字识别模型,利用卷积神经网络抽取文字图片卷积特征,转写出文字信息;对比暴恐词库字典,判断是否存在暴恐信息,若存在暴恐标语等,则记录相应信息;设定自定义文字信息字典,对转写的文字信息进行匹配,若匹配成功,则记录相应匹配信息。
[0017]步骤七:将步骤二中语音文件输入语音信息审核模块,利用语音信息审核模块中语音转写模型,将语音信息转写成文字信息,对比暴恐词库字典,判断是否存在暴恐信息,若存在暴恐标语等,则记录相应信息;设定自定义文字信息字典,对转写的文字信息进行匹配,若匹配成功,则记录相应匹配信息。
[0018]所述步骤一中,所述视频基础信息包括视频的分辨率、视频帧率、视频时长、视频存储容量等。
[0019]所述步骤二中,所述视频质量分析的方法具体为:对于视频图像,排除视频画面整体切换情况,视频若抖动严重,则在一定时序时间,帧与帧之间过渡不平缓,帧差较大,而非抖动视频则帧差较小,利用构建时序多层神经网络,排除视频画面切换的帧,在时序时间内计算帧与帧之间变化情况,对视频抖动进行归一化后评分,视频抖动范围分别为0

9分,其中抖动分数越低则抖动程度越低,抖动分数低于5设为合格;
[0020]对于视频语音,利用快速傅里叶变换得到语音频谱图,利用时序语音噪声分析网
络对时序语音频谱图计算幅度谱的平方,再计算纯语音幅度谱的平方,差额则为噪声情况,对噪声数据进行归一化评分,噪声范围分别为0

9分,噪声分数越低则噪声越少,噪声分数低于5设为合格。
[0021]所述步骤三中,将视频图像与语音部分进行分离,图像部分,利用开源工具将视频按一帧/秒拆分成多帧图片集,将语音部分全部保留,利用步骤二中噪声幅度谱的平方,利用谱减法去除部分加性噪声,存储为语音文件。
[0022]所述步骤四中,产品展示视频中涉及的侵权信息包含品牌商标侵权和外观侵权,在侵权信息审核模块中,通过搜集侵权品牌商标和外观侵权图片,标注相应侵权位置与类别,训练一个用于检测侵权的多层神经网络,将步骤三中多帧图片集依次输入该多层神经网络,得到图片中侵权信息存在的置信度、类别和坐标位置,设定侵权信息判定阈值为0.45,当置信度大于阈值时,则判定图片中存在侵权信息,同时输出侵权信息在图片中的位本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种产品展示视频自动化审核方法,其特征是,包括如下步骤:步骤S1:输入卖家上传视频,获取视频基础信息;步骤S2:将视频输入视频质量分析模块进行视频质量分析,利用时序多层神经网络与时序语音噪声分析网络对视频画面抖动情况与视频语音噪声情况进行评分;步骤S3:将视频拆分,划分为图像部分与语音部分,图像部分根据一帧/秒拆分为多帧图片集,语音部分降噪后保留全部;步骤S4:将拆分的图片集依次输入视频图片侵权信息审核模块进行侵权信息审核,利用侵权信息审核模块中的多层神经网络检测图片中是否存在侵权信息,若存在,则记录侵权信息及其在图中所在位置;步骤S5:将拆分的图片集依次输入视频图片涉黄信息审核模块进行涉黄信息审核,利用涉黄信息审核模块中的多层神经网络抽取图片特征信息,判断输入图片是否属于黄色图片类别,若属于黄色图片,则记录相应信息;步骤S6:将拆分的图片集依次输入视频图片文字信息审核模块进行文字信息审核,利用文字信息审核模块中的文字检测与文字识别模型,先在图片中检测出是否存在文字,若存在,定位文字位置;将文字截取输入文字识别模型,利用卷积神经网络抽取文字图片卷积特征,转写出文字信息;对比暴恐词库字典,判断是否存在暴恐信息,若存在暴恐标语等,则记录相应信息;设定自定义文字信息字典,对转写的文字信息进行匹配,若匹配成功,则记录相应匹配信息;步骤S7:将拆分的语音文件输入视频语音信息模块进行视频语音信息审核,利用视频语音信息审核模块中的语音转写模型,将视频语音转写为文字;对比暴恐词库字典,判断是否存在暴恐信息,若存在暴恐口号,则记录相应信息;设定自定义文字信息字典,对转写的文字信息进行匹配,若匹配成功,则记录相应匹配信息。2.根据权利要求1所述的产品展示视频自动化审核方法,其特征是,所述S1中,所述视频基础信息包括视频的分辨率、视频帧率、视频时长、视频存储容量等;所述S2中,所述视频质量分析的方法具体为:对于视频图像,排除视频画面整体切换情况,视频若抖动严重,则在一定时序时间,帧与帧之间过渡不平缓,帧差较大,而非抖动视频则帧差较小,利用构建时序多层神经网络,排除视频画面切换的帧,在时序时间内计算帧与帧之间变化情况,对视频抖动进行归一化后评分,视频抖动范围分别为0

9分,其中抖动分数越低则抖动程度越低,抖动分数低于5设为合格;对于视频语音,利用快速傅里叶变换得到语音频谱图,利用时序语音噪声分析网络对时序语音频谱图计算幅度谱的平方,再计算纯语音幅度谱的平方,差额则为噪声情况,对噪声数据进行归一化评分,噪声范围分别为0

9分,噪声分数越低则噪声越少,噪声分数低于5设为合格;所述S3中,将视频图像与语音部分进行分离,图像部分,利用开源工具将视频按一帧/秒拆分成多帧图片集,将语音部分全部保留,利用步骤二中噪声幅度谱的平方,利用谱减法去除部分加性噪声,存储为语音文件;所述S4中,产品展示视频中涉及的侵权信息包含品牌商标侵权和外观侵权,在侵权信息审核模块中,通过搜集侵权品牌商标和外观侵权图片,标注相应侵权位置与类别,训练一个用于检测侵权的多层神经网络,将步骤三中多帧图片集依次输入该多层神经网络,得到
图片中侵权信息存在的置信度、类别和坐标位置,设定侵权信息判定阈值为0.45,当置信度大于阈值时,则判定图片中存在侵权信息,同时输出侵权信息在图片中的位置和类别;所述S5中,在涉黄信息审核模块中,利用网络公开的涉黄图片数据集,构建一个涉黄关键点检测判定模型,将步骤三中多帧图片集依次输入检测网络,利用多层卷积神经网络输出关键点位置坐标,同时对关键点位置区域进行采样输入涉黄分类判定模型,判定关键点位置区域是否涉黄;所述S6中,所述文字检测与识别模型分为卷积神经网络和双向循环神经网络两部分,卷积神经网络用来抽取多帧图片集中文字图片卷积特征,双向循环神经网络用来对文字图片卷积特征进行转写为文字;构建暴恐词库字典和自定义文字信息字典用于拦截暴恐标语与自定义文字,针对有意规避检测的暴恐标语或自定义文字信息,构建一个孪生语义模型,将待检测文字信息输入模型,与暴恐词库字典或自定义文字信息字典进行语义相似度计算,当相似度大于阈值时,认为待检测文字涉嫌违规;所述S7中,所述视频语音信息审核模块为语音转写与违规文字检测两部分,利用语音转写模型,将步骤三中去噪的语音文件转写成文字,利用步骤六中的违规文字检测部分,检测视频语音中是否存在违规话语。3.根据权利要求1

2之一所述的产品展示视频自动化审核方法,其特征是,所述步骤S1中,所述视频基础信息包括视频的分辨率、视频帧率、视频时长、视频存储容量等;视频分辨率即为视频画面的宽高尺寸、视频帧率为视频每秒包含多少帧画面、视频存储容量为视频存储占用的空间,宽高尺寸建议为640*360以上,视频帧率为24帧以上,视频存储空间建议150MB以下;...

【专利技术属性】
技术研发人员:吕晨房鹏展
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1