多媒体数据检测方法及装置制造方法及图纸

技术编号:15542342 阅读:45 留言:0更新日期:2017-06-05 11:20
本发明专利技术公开了一种多媒体数据检测方法及装置,属于互联网技术领域。方法包括:获取待检测的多媒体数据;基于第一分类模型对多媒体数据执行敏感数据检测处理,得到多媒体数据为敏感数据的第一敏感概率;若第一敏感概率大于第一预设阈值,则基于模型深度大于第一分类模型且与第一分类模型级联的第二分类模型,对多媒体数据执行敏感数据检测处理,得到多媒体数据为敏感数据的第二敏感概率;若第二敏感概率大于第二预设阈值,则确定多媒体数据为敏感数据。采取两个模型深度不同的分类模型进行多媒体数据检测,可兼顾时间性能与检测效果,这样通过两个级联的分类模型既可满足线上实时检测需求,还可保证检测精准度。

Multimedia data detecting method and device

The invention discloses a method and a device for detecting multimedia data, belonging to the technical field of internet. Method includes: obtaining multimedia data to be detected; the first classification model to perform sensitive data detection processing of multimedia data based on multimedia data obtained for the first probability sensitive sensitive data; if the first sensitive probability is greater than the first predetermined threshold is based on the second classification model is greater than the first depth classification model and classification model of the first cascade, execution sensitive data detection and processing of multimedia data, multimedia data obtained for second probability sensitive sensitive data; if second sensitive probability is greater than second preset threshold, it is determined the multimedia data for sensitive data. Take the classification of two models of different depth of multimedia data detection, can take into account the time performance and detection effect, so that through the two cascade classification model can meet the needs of online real-time detection, but also can guarantee the detection accuracy.

【技术实现步骤摘要】
多媒体数据检测方法及装置
本专利技术涉及互联网
,特别涉及一种多媒体数据检测方法及装置。
技术介绍
随着互联网技术的快速发展,诸如图片、文字、声音、视频等多媒体数据通过互联网传播到了世界的各个角落。一方面,上述多媒体数据的传播为人们的学习、工作和生活提供了巨大的帮助。另一方面,出于牟取暴利或扩大影响力等目的,上述多媒体数据中也不乏包括淫秽色情、政治敏感、暴力恐怖等内容的敏感数据。由于这些敏感数据的传播会严重影响人们的身心健康,因此为了净化网络,如何进行多媒体数据检测成为了本领域一个亟待解决的问题。以多媒体数据为图片为例,相关技术在进行图片检测之前,首先还需进行模型训练。其中,模型训练过程为:将人工收集并标注的一定数量正常图片(即非敏感图片)和敏感图片作为训练样本集,之后根据该训练样本集对选取的一个分类模型进行训练,得到训练后的分类模型。这样在进行图片检测时,便可直接基于这个训练后的分类模型对待检测的图片执行敏感图片检测处理,得到该图片为敏感图片的敏感概率;若上述敏感概率超过预设阈值,则确定待检测的图片为敏感图片。在实现本专利技术的过程中,专利技术人发现相关技术至少存在以下问题:继续以多媒体数据为图片为例,由于采取单一分类模型进行图片检测,且时间性能与检测效果是一对相互矛盾的因素,即当检测效果较好时由于对多媒体数据的检测足够精细那么检测所消耗的时间便会较长,而当检测所消耗的时间较短时由于对多媒体数据的检测不够精细那么检测效果便会较差,因此无法兼顾时间性能与检测效果。比如,若上述分类模型的时间性能较好,如检测一张图片大概仅需100ms左右,则检测效果便会较差,因此在采用上述分类模型进行图片检测后,通常还需要人工再次进行检测或查漏等,会消耗大量的人力物力;若上述分类模型的检测效果较好,则时间性能便会很差,如检测一张图片大概需要的时间会在秒级左右,因此无法满足线上实时进行图片检测的需求,只能离线处理大量图片,智能性欠佳。
技术实现思路
为了解决相关技术的问题,本专利技术实施例提供了一种多媒体数据检测方法及装置。所述技术方案如下:一方面,提供了一种多媒体数据检测方法,所述方法包括:获取待检测的多媒体数据;基于第一分类模型对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为敏感数据的第一敏感概率;若所述第一敏感概率大于第一预设阈值,则基于模型深度大于所述第一分类模型且与所述第一分类模型级联的第二分类模型,对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为所述敏感数据的第二敏感概率;若所述第二敏感概率大于第二预设阈值,则确定所述多媒体数据为所述敏感数据。另一方面,提供了一种多媒体数据检测方法装置,所述装置包括:第一获取模块,用于获取待检测的多媒体数据;第一处理模块,用于基于第一分类模型对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为敏感数据的第一敏感概率;第二处理模块,用于若所述第一敏感概率大于第一预设阈值,则基于模型深度大于所述第一分类模型且与所述第一分类模型级联的第二分类模型,对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为所述敏感数据的第二敏感概率;确定模块,用于若所述第二敏感概率大于第二预设阈值,则确定所述多媒体数据为所述敏感数据。本专利技术实施例提供的技术方案带来的有益效果是:采取两个模型深度不同的分类模型进行多媒体数据检测,通过模型深度较浅的第一分类模型,在海量待检测的多媒体数据中查找疑似敏感数据并过滤掉正常数据,之后利用模型深度较深的第二分类模型对疑似敏感数据再次进行检测,以在疑似敏感数据中检测出真正的敏感数据,由于第一分类模型的时间性能较好、第二分类模型的检测效果较好,因此该种多媒体数据检测方式可以兼顾时间性能与检测效果,这样通过两个级联的分类模型既可满足线上实时进行多媒体数据检测的需求,还可保证敏感数据的检测精准度,相比于离线处理使得敏感数据在网上存留的时间大大减少,智能性较佳,网络净化效果较好。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种多媒体数据检测所涉及的系统架构图;图2是本专利技术实施例提供的一种多媒体数据检测方法的流程图;图3是本专利技术实施例提供的一种第一分类模型的结构示意图;图4是本专利技术实施例提供的一种特征区域提取的示意图;图5是本专利技术实施例提供的一种多媒体数据检测的业务架构示意图;图6是本专利技术实施例提供的一种多媒体数据检测装置的结构示意图;图7是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。在对本专利技术实施例进行详细地解释说明之前,先对本专利技术实施例可能涉及到的一些名词进行解释说明。敏感数据:指代包含淫秽色情、政治敏感、暴利恐怖等内容的多媒体数据。比如,色情图像、暴利恐怖图像、色情视频、暴利恐怖视频等。分类模型:采用深度学习技术或者机器学习技术,通过对训练样本数据进行学习训练后得到的数学模型,学习训练过程中会获得该数学模型的参数;在对待检测的多媒体数据进行检测时,加载训练好的分类模型的参数,从而对待检测的多媒体数据进行是否为敏感数据的检测。在本专利技术实施例中,分类模型指代CNN(ConvolutionalNeuralNetwork,卷积神经网络)模型。众所周知,对于一个CNN模型来说,时间性能和检测效果是一对相互矛盾的因素,因此无法兼顾时间性能与检测效果。其中,时间性能用于表征一个CNN模型的运行速度,即进行多媒体数据检测的速度,比如检测一张图片是否为色情图片的速度。检测效果用于表征一个CNN模型在进行多媒体数据检测时检测正确的概率。一般来说,模型深度越深的分类模型其检测效果越好,但是时间性能便会较差,即运行速度较慢,难以做到实时对多媒体数据进行检测。其中,CNN模型的模型深度可用隐含层的层数来衡量,隐含层的层数越多,则模型深度越深;隐含层的层数越少,则模型深度越浅;换句话说,卷积核结构的数量越多,卷积核的数量越多,卷积核的尺寸越大,卷积运算量越大,对多媒体数据的检测越精细,则模型深度越深;卷积核结构的数量越少,卷积核的数量越少,卷积核的尺寸越小,卷积运算量越小,对多媒体数据的检测越不精细,则模型深度越浅。而模型深度越浅的分类模型其时间性能越好,即运行速度较快,但是检测效果便会较差。因此仅采用单个分类模型无法兼顾检测效果和时间性能。为了解决这个问题,本专利技术实施例提出了下述图1所示的用于进行多媒体数据检测的系统架构。参见图1,其示出了本专利技术实施例提供的多媒体数据检测方法所涉及的系统架构图。在该系统架构下一共包括两级分类模型,分别为第一分类模型和第二分类模型。其中,第一分类模型和第二分类模型均为CNN模型,且组成级联结构。第一分类模型的模型深度要小于第二分类模型,即第一分类模型的时间性能较好,但是检测效果稍差,通过第一分类模型来过滤掉非敏感数据(正常数据),筛选出疑似敏感数据;第二分类模型的检测效果较好,但是时间性能稍差,通过第二分类模型对第一分类本文档来自技高网
...
多媒体数据检测方法及装置

【技术保护点】
一种多媒体数据检测方法,其特征在于,所述方法包括:获取待检测的多媒体数据;基于第一分类模型对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为敏感数据的第一敏感概率;若所述第一敏感概率大于第一预设阈值,则基于模型深度大于所述第一分类模型且与所述第一分类模型级联的第二分类模型,对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为所述敏感数据的第二敏感概率;若所述第二敏感概率大于第二预设阈值,则确定所述多媒体数据为所述敏感数据。

【技术特征摘要】
1.一种多媒体数据检测方法,其特征在于,所述方法包括:获取待检测的多媒体数据;基于第一分类模型对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为敏感数据的第一敏感概率;若所述第一敏感概率大于第一预设阈值,则基于模型深度大于所述第一分类模型且与所述第一分类模型级联的第二分类模型,对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为所述敏感数据的第二敏感概率;若所述第二敏感概率大于第二预设阈值,则确定所述多媒体数据为所述敏感数据。2.根据权利要求1所述的方法,其特征在于,所述第一分类模型包括第一数目个卷积核结构,每一个卷积核结构顺次相连,每一个卷积核结构中均包括第一卷积核和第二卷积核,所述第一卷积核与所述第二卷积核的尺寸不同;所述基于第一分类模型对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为敏感数据的第一敏感概率,包括:对于所述第一分类模型的当前卷积核结构,获取与其相连的上一个卷积核结构输出的第一中间特征矩阵;基于所述当前卷积核结构的第一卷积核,对所述第一中间特征矩阵进行卷积处理,得到第一特征矩阵;基于所述当前卷积核结构的第二卷积核,对所述第一中间特征矩阵进行卷积处理,得到第二特征矩阵;将所述第一特征矩阵和所述第二特征矩阵进行组合处理,得到第二中间特征矩阵,将所述第二中间特征矩阵输入与所述当前卷积核结构相连的下一个卷积核结构,依次类推,重复执行对输入的中间特征矩阵进行卷积处理的步骤,直至最后一个卷积核结构输出第一目标特征矩阵;根据所述第一目标特征矩阵,计算所述第一敏感概率;其中,若所述当前卷积核结构为所述第一分类模型的首个卷积核结构,则所述第一中间特征矩阵为所述多媒体数据的原始特征矩阵。3.根据权利要求1所述的方法,其特征在于,所述第一分类模型包括第一数目个卷积核结构,每一个卷积核结构顺次相连,每一个卷积核结构中包括至少一个第三卷积核;所述基于第一分类模型对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为敏感数据的第一敏感概率,包括:对于所述第一分类模型的当前卷积核结构,获取与其相连的上一个卷积核结构输出的第三特征矩阵;基于所述当前卷积核结构的至少一个第三卷积核,对所述第三特征矩阵中至少一个特征矩阵进行卷积处理,得到第四特征矩阵;将所述第四特征矩阵输入与所述当前卷积核结构相连的下一个卷积核结构,依次类推,重复执行对输入的特征矩阵进行卷积处理的步骤,直至最后一个卷积核结构输出第一目标特征矩阵;根据所述第一目标特征矩阵,计算所述第一敏感概率;其中,若所述当前卷积核结构为所述第一分类模型的首个卷积核结构,则所述第三特征矩阵为所述多媒体数据的原始特征矩阵。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第一目标特征矩阵,计算所述第一敏感概率,包括:基于所述第一目标特征矩阵,计算所述多媒体数据的第一特征向量;获取所述第一分类模型的第一分类矩阵,所述第一分类矩阵的行数与所述第一特征向量的列数相等,所述第一分类矩阵的列数与所述第一分类模型的分类类别的数目相等;将所述第一特征向量与所述第一分类矩阵进行乘积运算,得到所述第一敏感概率。5.根据权利要求1所述的方法,其特征在于,所述第二分类模型包括第二数目个卷积核结构,所述第二数目大于第一数目,每一个卷积核结构顺次相连,每一个卷积核结构中均包括第四卷积核和第五卷积核,所述第四卷积核与所述第五卷积核的尺寸不同,所述第四卷积核和所述第五卷积核的尺寸均大于第一卷积核、第二卷积核和第三卷积核的尺寸;所述基于模型深度大于所述第一分类模型且与所述第一分类模型级联的第二分类模型,对所述多媒体数据执行敏感数据检测处理,包括:对于所述第二分类模型的当前卷积核结构,获取与其相连的上一个卷积核结构输出的第三中间特征矩阵;基于所述当前卷积核结构的第四卷积核,对所述第三中间特征矩阵进行卷积处理,得到第五特征矩阵;基于所述当前卷积核结构的第五卷积核,对所述第三中间特征矩阵进行卷积处理,得到第六特征矩阵;将所述第五特征矩阵和所述第六特征矩阵进行组合处理,将得到的第四中间特征矩阵输入与所述当前卷积核结构相连的下一个卷积核结构,依次类推,重复执行对输入的中间特征矩阵进行卷积处理的步骤,直至最后一个卷积核结构输出第二目标特征矩阵;根据所述第二目标特征矩阵,计算所述第二敏感概率;其中,若所述当前卷积核结构为所述第二分类模型的首个卷积核结构,则所述第二中间特征矩阵为所述多媒体数据的原始特征矩阵。6.根据权利要求1所述的方法,其特征在于,所述第二分类模型包括第二数目个卷积核结构,所述第二数目大于第一数目;每一个卷积核结构顺次相连,每一个卷积核结构中包括至少一个第六卷积核,所述第六卷积核的尺寸大于第一卷积核、第二卷积核和第三卷积核的尺寸;所述基于模型深度大于所述第一分类模型且与所述第一分类模型级联的第二分类模型,对所述多媒体数据执行敏感数据检测处理,得到所述多媒体数据为所述敏感数据的第二敏感概率,包括:对于所述第二分类模型的当前卷积核结构,获取与其相连的上一个卷积核结构输出的第七特征矩阵;基于所述当前卷积核结构的至少一个第六卷积核,对所述第七特征矩阵中至少一个特征矩阵进行卷积处理,得到第八特征矩阵;将所述第八特征矩阵输入与所述当前卷积核结构相连的下一个卷积核结构,依次类推,重复执行对输入的特征矩阵进行卷积处理的步骤,直至最后一个卷积核结构输出第二目标特征矩阵;根据所述第二目标特征矩阵,计算所述第二敏感概率;其中,若所述当前卷积核结构为所述第二分类模型的首个卷积核结构,则所述第七特征矩阵为所述多媒体数据的原始特征矩阵。7.根据权利要求5或6所述的方法,其特征在于,所述根据所述第二目标特征矩阵,计算所述第二敏感概率,包括:基于所述第二目标特征矩阵,计算所述多媒体数据的第二特征向量;获取所述第二分类模型的第二分类矩阵,所述第二分类矩阵的行数与所述第二特征向量的列数相等,所述第二分类矩阵的列数与所述第二分类模型的分类类别的数目相等;将所述第二特征向量与所述第二分类矩阵进行乘积运算,得到所述第二敏感概率。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述第二敏感概率大于第三预设阈值且小于所述第二预设阈值,则获取人工对所述多媒...

【专利技术属性】
技术研发人员:胡易余宗桥郭晓威
申请(专利权)人:腾讯科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1