资源审核模型的训练方法、装置、服务器和存储介质制造方法及图纸

技术编号:27202458 阅读:23 留言:0更新日期:2021-01-31 12:15
本发明专利技术实施例公开了一种资源审核模型的训练方法、装置、服务器和存储介质。其中,该方法包括:确定预先训练的基准审核模型;采用基准审核模型的原训练样本,以及从候选资源集中动态挖掘的调优样本,对基准审核模型不断进行调优,直至调优后的基准审核模型满足预设调优收敛条件,则将最终调优后的基准审核模型作为资源审核模型,调优样本为对基准审核模型的高违规审核存在正向影响的候选资源。本发明专利技术实施例提供的技术方案,通过对该基准审核模型不断进行高违规审核下的调优,逐步避免基准审核模型在高违规审核下的审核误差,从而提升资源审核模型在高违规审核下的高准确性,保证资源审核模型在高违规审核下的审核可信度。核模型在高违规审核下的审核可信度。核模型在高违规审核下的审核可信度。

【技术实现步骤摘要】
资源审核模型的训练方法、装置、服务器和存储介质


[0001]本专利技术实施例涉及视频处理
,尤其涉及一种资源审核模型的训练方法、装置、服务器和存储介质。

技术介绍

[0002]随着短视频、直播和新闻资讯等多媒体平台的迅速崛起,面向用户传播的多媒体资源与日俱增,此时为了确保多媒体资源传播的内容安全性,对于涉及暴力、血腥、黄赌毒以及危及青少年健康成长等不良导向内容的监管力度也不断提升,通常会采用预先训练的资源审核模型过滤出大量正常的多媒体资源,然后将可能违规的多媒体资源推送给人工审核平台,以协助人工审核。
[0003]此时,为了进一步减轻人工审核的负担,资源审核模型还可以将违规得分较高的多媒体资源直接判定为违规资源,无需人工审核,然而由于训练样本中部分资源数据的标签模糊不容易界定,或者标注含有噪声,使得所训练出的资源审核模型无法保证违规审核的高准确率,因此资源审核模型输出的违规得分较高的多媒体资源中可能仍然存在与违规内容极为相似的正常资源,因此为了保证资源审核模型进行违规审核的高准确率,现有技术中通常会在模型训练过程中通过调整用于计算样本损失的权重来着重关注训练样本中的正样本,或者通过从训练样本中挖掘困难样本,来对资源审核模型进行增强训练,然而上述方案仍无法从违规得分较高的多媒体资源准确区分出难负样本和易正样本,也就无法保证资源审核模型对于高违规得分下多媒体资源进行审核的高准确率。

技术实现思路

[0004]本专利技术实施例提供了一种资源审核模型的训练方法、装置、服务器和存储介质,提高资源审核模型在高违规审核下的准确率。
[0005]第一方面,本专利技术实施例提供了一种资源审核模型的训练方法,该方法包括:
[0006]确定预先训练的基准审核模型;
[0007]采用所述基准审核模型的原训练样本,以及从候选资源集中动态挖掘的调优样本,对所述基准审核模型不断进行调优,直至调优后的基准审核模型满足预设调优收敛条件,则将最终调优后的基准审核模型作为资源审核模型,所述调优样本为对所述基准审核模型的高违规审核存在正向影响的候选资源。
[0008]第二方面,本专利技术实施例提供了一种资源审核模型的训练装置,该装置包括:
[0009]基准模型确定模块,用于确定预先训练的基准审核模型;
[0010]模型调优训练模块,用于采用所述基准审核模型的原训练样本,以及从候选资源集中动态挖掘的调优样本,对所述基准审核模型不断进行调优,直至调优后的基准审核模型满足预设调优收敛条件,则将最终调优后的基准审核模型作为资源审核模型,所述调优样本为对所述基准审核模型的高违规审核存在正向影响的候选资源。
[0011]第三方面,本专利技术实施例提供了一种服务器,该服务器包括:
[0012]一个或多个处理器;
[0013]存储装置,用于存储一个或多个程序;
[0014]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的资源审核模型的训练方法。
[0015]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的资源审核模型的训练方法。
[0016]本专利技术实施例提供的一种资源审核模型的训练方法、装置、服务器和存储介质,在预先训练好基准审核模型后,不断从候选资源集中动态挖掘出可能会对基准审核模型在高违规审核下的审核结果造成影响的调优样本,然后采用该基准审核模型的原训练样本,以及从候选资源集中动态挖掘的调优样本,对该基准审核模型不断进行调优,逐步避免基准审核模型在高违规审核下的审核误差,直至调优后的基准审核模型满足预设调优收敛条件,则将最终调优后的基准审核模型作为对应的资源审核模型,从而提升资源审核模型在高违规审核下的高准确性,保证资源审核模型在高违规审核下的审核可信度。
附图说明
[0017]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:
[0018]图1A为本专利技术实施例一提供的一种资源审核模型的训练方法的流程图;
[0019]图1B为本专利技术实施例一提供的资源审核模型的训练过程的原理示意图;
[0020]图2A为本专利技术实施例二提供的一种资源审核模型的训练方法的流程图;
[0021]图2B为本专利技术实施例二提供的资源审核模型的训练过程的原理示意图;
[0022]图3A为本专利技术实施例三提供的一种资源审核模型的训练方法的流程图;
[0023]图3B为本专利技术实施例三提供的方法中通过资源审核模型对于线上的待审核资源进行审核的原理示意图;
[0024]图4为本专利技术实施例四提供的一种资源审核模型的训练装置的结构示意图;
[0025]图5为本专利技术实施例五提供的一种服务器的结构示意图。
具体实施方式
[0026]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。此外,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0027]实施例一
[0028]图1A为本专利技术实施例一提供的一种资源审核模型的训练方法的流程图,本实施例可适用于对用于判定任一种多媒体资源是否违规的资源审核模型进行训练的情况中。本实施例提供的资源审核模型的训练方法可以由本专利技术实施例提供的资源审核模型的训练装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的服务器中。
[0029]具体的,参考图1A,该方法可以包括如下步骤:
[0030]S110,确定预先训练的基准审核模型。
[0031]具体的,为了保证多媒体资源传播的内容安全性,减少违规资源的广泛传播,则需要准确判定通过各类多媒体平台上传的多媒体资源是否违规,其中本实施例中的多媒体资源可以包括短视频、直播和新闻资讯等各类资源。
[0032]目前,为了判定多媒体资源是否违规,通常会针对每一类多媒体资源,预先训练出对应的神经网络模型,然后将多媒体资源输入到该神经网络模型中,由该神经网络模型来判定多媒体资源内是否存在违规内容,此时由于神经网络模型通常会将大量准确标注好是否违规的历史资源作为训练样本进行训练,而训练样本中包括标注为违规的正样本和标注为正常的负样本,因此采用大量正样本和负样本所训练出的神经网络模型基本上能够准确排查出可能违规的多媒体资源,而且所排查出可能违规的多媒体资源中除了包括真实的违规资源外,还可能会存在与违规资源非常相似的正常资源,例如在将存在枪支头部的图片作为正样本来训练神经网络模型后,如果将该图片中的枪支头部替换为木棍头部,那么极有可能将存在木棍头部的图片判定为违规资源,因此为了保证多媒体资源是否违规的判定准确性,在通过预先训练的神经网络模型排查出可能违规的多媒体资源后,还会将所排查出的多媒体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资源审核模型的训练方法,其特征在于,包括:确定预先训练的基准审核模型;采用所述基准审核模型的原训练样本,以及从候选资源集中动态挖掘的调优样本,对所述基准审核模型不断进行调优,直至调优后的基准审核模型满足预设调优收敛条件,则将最终调优后的基准审核模型作为资源审核模型,所述调优样本为对所述基准审核模型的高违规审核存在正向影响的候选资源。2.根据权利要求1所述的方法,其特征在于,所述采用所述基准审核模型的原训练样本,以及从候选资源集中动态挖掘的调优样本,对所述基准审核模型不断进行调优,包括:针对每次调优后的基准审核模型,基于该基准审核模型内动态设置的高违规阈值,从所述候选资源集中挖掘对应的调优样本;采用该基准审核模型的原训练样本和动态挖掘出的调优样本,继续对该基准审核模型进行高违规审核下的调优。3.根据权利要求2所述的方法,其特征在于,所述基于该基准审核模型内动态设置的高违规阈值,从所述候选资源集中挖掘对应的调优样本,包括:将所述候选资源集输入到该基准审核模型中,得到各候选资源的违规得分;将所述违规得分大于等于该基准审核模型内动态设置的高违规阈值的候选资源作为所述调优样本,并确定所述调优样本的标签类别。4.根据权利要求3所述的方法,其特征在于,所述确定所述调优样本的标签类别,包括:按照所述调优样本的候选标签设置对应的标签类别;或者,将所述调优样本推送给人工审核平台,以人工设置所述调优样本的标签类别。5.根据权利要求2所述的方法,其特征在于,在基于该基准审核模型内动态设置的高违规阈值,从所述候选资源集中挖掘对应的调优样本之前,还包括:针对每次调优后的基准审核模型,按照前次挖掘出的调优样本数量自适应动态调整该基准审核模型内的高违规阈值。6.根据权利要求2所述的方法,其特征在于,在基于该基准审核模型内动态设置的高违规阈值,从所述候选资源集中挖掘对应的调优样本之后,还包括:针对每次调优后的基准审核模型,将当前挖掘出的调优样本添加到预先构建的样本挖掘库中;相应的,采用该基准审核模型的原训练样本和动态挖掘出的调优样本,继续对该基准审核模型进行高违规审核下的调优,包括:采用由该基准审核模型的原训练样本和所述样本挖掘库共同组成的混合样本,继续对该基准审核模型进行高违规审核下的调优。7.根据权利要求1-6任一项所述的方法,其特征在于,所述预设调优收敛条件为利用调优后的基准审核模型当前挖掘出的调优样本数量低于预设挖掘阈值,或者调优后的基准审核模型在高违规审核下的训练损失达...

【专利技术属性】
技术研发人员:易帆张壮辉
申请(专利权)人:有半岛北京信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1