一种短视频检测和多分类方法、装置及存储介质制造方法及图纸

技术编号:31323204 阅读:20 留言:0更新日期:2021-12-13 00:11
本发明专利技术公开了一种短视频检测和多分类方法,接收用户发送的短视频获取请求,从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息,利用图像关键帧执行目标短视频检测和识别,构建多领域预警关键词库,利用两级关键词匹配实现预警短视频分类供用户查看。本发明专利技术利用图像处理技术和文本处理技术能够准确提取短视频中的蕴含的有效信息,提高短视频识别的准确度;并利用短视频中的图像帧、文字信息和语音信息对短视频进行检测,根据图像帧中蕴含的图像信息可检测出目标短视频,利用短视频中的多种文字信息实现多类型的突发预警短视频检测分类,并运用两级关键词匹配规则实现突发预警短视频的分类,提高了短视频的分类多样性和准确性。分类多样性和准确性。分类多样性和准确性。

【技术实现步骤摘要】
一种短视频检测和多分类方法、装置及存储介质


[0001]本专利技术涉及短视频检测与分类领域,特别涉及一种短视频检测和分类方法、装置及计算机存储介质。

技术介绍

[0002]随着互联网通信技术和多媒体技术的迅速发展,数字视频已广泛传播于大量用户之间,尤其是各大短视频平台的出现,短视频已经成为人们获取娱乐和新闻的重要来源之一。然而,有些短视频属于异常短视频。因此如果对短视频不加以分类管理,不提前进行提醒,那么会存在一定影响。因此,如何对短视频内容的检测、监测、分类、提醒是本领域中迫切需求解决的技术难题。
[0003]如何对短视频内容检测涉及多种技术的交叉,其涉及短视频编解码技术、图像处理技术、语音处理技术、文本处理技术、数据库存储技术等等。而现有技术中,通常只涉及利用单一的技术对短视频内容进行简单粗分类,例如可利用图像识别技术将目标短视频分类、利用关键词识别的手段将预警短视频分类等等,很显然上述技术方案不能适应多种类型的短视频分类,同时由于检测手段的单一会导致准确度较低。因此,迫切需要一种针对短视频,进行检测和分类的技术,其不仅能对短视频进行多类型的检测分类,同时通过融合多种短视频中的信息提高短视频分类的准确度。

技术实现思路

[0004]有鉴于此,本专利技术提供了一种短视频检测和分类方法,可将短视频分类为目标视频和突发预警视频。一方面利用图像处理技术和文本处理技术能够准确提取短视频中的蕴含的有效信息,为短视频的分类提供多种图像信息和文本信息,提高短视频识别的准确度。另一方面充分利用短视频中的图像帧、文字信息和语音信息检测出异常视频,利用图像帧中蕴含的图像信息可检测出目标短视频,利用短视频中的多种文字信息,可实现多类型的突发预警短视频检测分类,并具体利用两级关键词匹配规则实现突发预警短视频的分类,提高了短视频的分类多样性和准确性。
[0005]本专利技术的一种短视频检测和分类方法,具体包括如下过程:步骤1:接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;步骤2:从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;在提取视频图像帧之后,还包括执行如下步骤:将获取的每个短视频划分为多个片段,从每个片段中提取一个非边缘帧作为视频图像关键帧;将提取的多个视频图像关键帧构成该短视频的图像关键帧序列,并作为该短视频的图像帧对应保存到数据库,同时将对应的语音文件也对应保存到数据库,并可设置查询索引;步骤3:执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频,具
体包括如下过程:步骤3.1:人体肤色区域检测和肤色特征提取:利用人体肤色统计模型得到人体肤色区域;根据所述肤色区域,从所述肤色区域中提取多个特征值作为特征向量,其中特征值包括:肤色占整个图像的比例、肤色连通区域的个数;最大连通区域占整个图像的比例;步骤3.2:人体姿态检测和特征提取:计算连续两帧图像的帧差图像,获取运动特征,并且与人体异常姿态特征库进行对比,得到最接近的人体姿态,并且将对应的直方图特征作为人体姿态特征:其中所述人体异常姿态特征库采用如下方式构建:根据多个目标动作短视频片段样本,计算连续两帧图像相减即得帧差图像,得到运动变化的像素,统计该像素直方图特征,将所述直方图特征构建为目标短视频动作特征库;步骤3.3:将上述提取的人体肤色区域特征和人体姿态特征进行多特征融合,并利用分类器进行识别,得到该图像关键帧是否为目标帧图像,并进行0和1的标识,标识1表示该图像关键帧为目标帧图像;步骤3.4:对每个短视频的多个图像关键帧执行上述过程,并将识别结果与每个视频对应保存;步骤3.5:根据短视频的所有图像关键帧的识别结果来最终确定短视频的异常性,具体包括如下过程:根据短视频的时间连续性,若短视频的图像关键帧被标记为1,则将该图像关键帧及与其前后相邻的若干短视频图像关键帧表示成张量数据的形式,通过分析提取张量数据的相关性,当相关性较大时,确定待检测短视频为目标短视频,并结束对待检测短视频的检测过程;否则,提取下一个短视频图像关键帧,并重复执行上述过程,直到确定待检测短视频为目标短视频,或者,对所有短视频图像关键帧都进行了判断,并确定待检测短视频中不为目标短视频;步骤4:对剔除了目标短视频的剩余短视频执行文字信息的识别流程,包括文本区域检测定位和字符识别流程,采用基于 Gabor 纹理特征和深度学习神经网络的两级文本区域检测定位方式,具体包括:步骤4.1:对短视频图像关键帧进行网格化处理,具体为使用固定尺寸的网格分割关键帧,网格的大小取决于对特征图像的细化程度以及计算的实时性要求,采用 N
×
N 个像素的网格对特征区域进行网格化,每个网格的中心点作为 Gabor 特征的采样点;步骤4.2:构建Gabor滤波器组,利用不同方向和尺度下的 Gabor 特征来描述图像关键帧中文字区域的方向性纹理,实现文字区域的初步检测;步骤4.3:将文字区域和非文字区域的 Gabor 特征输入到深度学习神经网络训练文字区域分类器,将上述训练好的分类器用于图像关键帧文本区域的检测。
[0006]在检测到文本区域后,接着就是对文字区域进行字符识别,并保存为文本信息,其中字符识别方式,具体包括:步骤4.4:构建基于CRNN结合CTC

loss的文字识别模型,并基于该模型对上述文本区域结果进行文字识别,获取有效的文字信息。其中CRNN结合CTC

loss的文字识别模型采用本领域中通用的模型算法;步骤4.5:在得到每个视频的多个图像关键帧的文字识别结果后,将所有识别的文
字结果进行去重合并后,作为每个短视频的文本信息,对应保存。
[0007]步骤5:构建多领域预警关键词库,该预警关键词库是基于预先采集的多领域语料进行训练得到的,其中多领域关键词库对应多种短视频预警类别;步骤6:将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,利用基于两级关键词匹配识别算法,即先利用文本关键词分词结果的哈希相似度比对,再利用基于机器学习的关键词语义比对,执行预警短视频分类,具体包括如下步骤:步骤6.1:获取上述保存的每个短视频的目标文本信息;步骤6.2:获取上述目标文本信息的分词集合;步骤6.3:计算所述分词集合中的各个分词的哈希值,根据所述分词集合中的分词的哈希值生成与所述多领域预警关键词库中的关键词的相似度;步骤6.4:在所述相似度小于阈值时,进行语义识别,根据预设的机器学习概率模型提取文本特征;将所述文本特征作为输入,根据所述预设的机器学习概率模型计算所述文本信息的置信度对所述文本信息进行语义分析;步骤6.5:根据所述置信度判定所述文本信息是否为预警信息。其中,文本信息的文本特征可包括TF

IDF特征。可预先输入预警信息的样本进行机器学习,从而服务器建立机器学习概率模型;步骤7:对上述分类视频的短视频进行展示。本专利技术还提供一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短视频检测和多分类装置,所述装置包括:获取模块、视频语音分离模块、目标短视频检测和识别模块、图像文字检测和识别模块、多领域预警关键词库构建模块、预警短视频分类模块、分类结果展示模块;所述获取模块:具体用于接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;所述视频语音分离模块:具体用于从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;所述目标短视频检测和识别模块:具体用于执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频;所述图像文字检测和识别模块:具体用于对剔除了目标短视频的剩余短视频执行文字信息识别;所述多领域预警关键词库构建模块:具体用于构建多领域预警关键词库,该预警关键词库是基于预先采集的多领域语料进行训练得到的,且该多领域关键词库对应多种短视频预警类别;所述预警短视频分类模块:具体用于将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,匹配多领域预警关键词库,利用文本关键词分词结果的哈希相似度比对结合基于机器学习的语义比对,执行预警短视频分类;所述分类结果展示模块:具体用于对上述分类短视频进行展示。2.一种利用权利要求1所述的装置实现的短视频检测和多分类方法,包括如下步骤:步骤1:接收用户发送的短视频获取请求,采用获取程序以消息队列请求的方式向短视频平台或者短视频网络存储数据库发送短视频获取请求,并接收获取结果;步骤2:从所述短视频中分离出短视频的视频图像帧以及该短视频中的语音信息;在提取视频图像帧之后,还包括执行如下步骤:步骤2.1:将获取的每个短视频划分为多个片段,从每个片段中提取一个非边缘帧作为视频图像关键帧;步骤2.2:将提取的多个视频图像关键帧构成该短视频的图像关键帧序列,并作为该短视频的图像帧对应保存到数据库,同时将对应的语音文件也对应保存到数据库,并设置查询索引;步骤3:执行目标短视频检测和识别,首先判断图像关键帧对应的人脸数量是否满足阈值条件,若是,则利用图像关键帧的多种特征信息判断该短视频是否为目标短视频;步骤4:对剔除了目标短视频的剩余短视频执行文字信息的识别流程,包括文本区域检测定位和字符识别流程;步骤5:构建多领域预警关键词库,该预警关键词库是基于预先采集的多领域语料进行训练得到的,其中多领域关键词库对应多种短视频预警类别;步骤6:将未检测出文字区域的短视频剔除,对剩余的短视频进行突发预警分类识别,利用基于两级关键词匹配识别算法,即先利用文本关键词分词结果的哈希相似度比对,再利用基于机器学习的关键词语义比对,执行预警短视频分类;
步骤7:对上述分类短视频进行展示。3.如权利要求2所述的短视频检测和多分类方法,其特征在于:其中,所述利用图像关键帧的多种特征信息判断该短视频是否为目标短视频,具体包括如下过程:步骤3.1:人体肤色区域检测和肤色特征提取:利用人体肤色统计模型得到人体肤色区域;根据所述肤色区域,从所述肤色区域中提取多个特征值作为特征向量,其中特征值包括:肤色占整个图像的比例、肤色连通区域的个数;最大连通区域占整个图像的比例;步骤3.2:人体姿态检测和特征提取:计算连续两帧图像的帧差图像,获取运动特征,并且与人体异常姿态特征库进行对比,得到最接近的人体姿态,并且将对应的直方图特征作为人体姿态特征;其中所述人体异常姿态特征库采用如下方式构建:根据多个目标动作短视频片段样本,计算连续两帧图像相减即得帧差图像,得到运动变化的像素,统计该像素直方图特征,将所述直方图特征构建为目标短视频动作特征库;步骤3.3:将上述提取的人体肤色区域特征和人体姿态特征进行多特征融合,并利用分类器进行识别,得到该图像关键帧是否为目标的帧图像,并进行0和1的标识;步骤3.4:对每个短视频的多个图像关键帧执行上述过程,并将识别结果与每个视频对应保存;步骤3.5:根据短视频的所有图像关键帧的识别结果来最终确定短视频的异常性。4.如权利要求3所述的短视频检测和多分类方法,其特征在于:其中,所述利用人体肤色统计模型得到人体肤色区域,包括如下过程:人体肤色统计模型构建如下:将RGB颜色空间转换到HSV空间,通过计算大量样本肤...

【专利技术属性】
技术研发人员:ꢀ五一IntClG零六F一六七五
申请(专利权)人:冠传网络科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1