内容审核模型的训练及审核方法、装置、设备和存储介质制造方法及图纸

技术编号:23344637 阅读:26 留言:0更新日期:2020-02-15 04:18
本发明专利技术实施例公开了一种内容审核模型的训练及审核方法、装置、设备和存储介质,内容审核模型的训练方法包括:接收样本视频文件;提取样本视频文件中的部分图像数据,作为样本图像数据;若所述样本图像数据的内容违规,则定位所述样本图像数据在所述样本视频文件中所处的时间点;从围绕所述时间点的图像数据中提取具备显著性的图像区域数据;根据所述图像区域数据与所述样本图像数据训练内容审核模型。在时间上定位内容违规的样本图像数据,在空间上定位具备显著性的图像区域数据,可快速从样本视频文件中抽样表征内容违规的特征,并在时间和空间的维度上加大特征的质量,以此训练内容审核模型,可保证内容审核模型的性能。

Training and audit methods, devices, equipment and storage media of content audit model

【技术实现步骤摘要】
内容审核模型的训练及审核方法、装置、设备和存储介质
本专利技术实施例涉及视频审核的技术,尤其涉及内容审核模型的训练及审核方法、装置、设备和存储介质。
技术介绍
随着互联网技术的发展,互联网视频的流量在近几年大量增加,短视频、直播等各种新型UGC(用户原创内容,UserGeneratedContent)促使互联网视频越来越丰富。与此同时,大量内容违规的视频,如内容涉及恐怖、涉及暴力、涉及色情、涉及赌博等的视频,也被生产并意图在互联网上传播。因此,在视频发布之前或发布之后,一般需要对该视频的内容进行审核,滤除内容违规的视频。早期,一般依靠人工来审核上传至互联网的视频资源是否包含违规内容,然而随着互联网上的视频资源量越来越大,依靠人工对视频内容进行审核需要消耗大量人力成本,并且效率较低。因而目前对视频进行审核方式,经常考虑采用机器学习的方式,在这种方案中,需要首先对训练视频中的图像数据(图像帧)是否违规及其违规类别进行人工标注,然后将这些图像数据及相应的违规类别输入到机器学习的模型中进行训练,并利用训练得到的模型对其他视频内容本文档来自技高网...

【技术保护点】
1.一种内容审核模型的训练方法,其特征在于,包括:/n提取样本视频文件的部分图像数据,作为样本图像数据;/n若所述样本图像数据的内容违规,则定位所述样本图像数据在所述样本视频文件中所处的时间点;/n从围绕所述时间点的图像数据中提取具备显著性的图像区域数据;/n根据所述图像区域数据与所述样本图像数据训练内容审核模型。/n

【技术特征摘要】
1.一种内容审核模型的训练方法,其特征在于,包括:
提取样本视频文件的部分图像数据,作为样本图像数据;
若所述样本图像数据的内容违规,则定位所述样本图像数据在所述样本视频文件中所处的时间点;
从围绕所述时间点的图像数据中提取具备显著性的图像区域数据;
根据所述图像区域数据与所述样本图像数据训练内容审核模型。


2.根据权利要求1所述的方法,其特征在于,所述提取样本视频文件的部分图像数据,作为样本图像数据,包括:
将样本视频文件切分为至少两个样本视频片段;
在每个所述样本视频片段中提取部分图像数据,作为样本图像数据。


3.根据权利要求2所述的方法,其特征在于,所述从所述样本视频文件中提取部分图像数据,作为样本图像数据,还包括:
按照时间顺序对所述样本图像数据进行排序;
和/或,
将所述样本图像数据缩放至预设的尺寸。


4.根据权利要求1所述的方法,其特征在于,所述若所述样本图像数据的内容违规,则定位所述样本图像数据在所述样本视频文件中所处的时间点,包括:
查找违规判别模型,所述违规判别模型用于识别图像数据中内容的图像违规分数;
将所述样本图像数据输入至所述违规判别模型中,以识别所述样本图像数据中内容的图像违规分数;
选择所述图像违规分数符合预设的违规条件的样本图像数据;
确定符合所述违规条件的样本图像数据在所述样本视频文件中所处的时间点。


5.根据权利要求4所述的方法,其特征在于,所述查找违规判别模型,包括:
确定对所述样本视频文件标记的、表征内容违规的违规类别;
查找所述违规类别对应的违规判别模型,所述违规判别模型用于识别图像数据中内容属于所述违规类别的图像违规分数。


6.根据权利要求4所述的方法,其特征在于,所述选择所述图像违规分数符合预设的违规条件的样本图像数据,包括:
针对所述样本图像数据,判定是否具有超过预设的图像分数阈值的图像违规分数;
若是,则确定所述图像违规分数符合预设的违规条件;
若否,则确定值最大的图像违规分数符合预设的违规条件。


7.根据权利要求1-6任一所述的方法,其特征在于,所述从围绕所述时间点的图像数据中提取具备显著性的图像区域数据,包括:
确定包含所述时间点的时间范围;
查找显著区域检测模型,所述显著区域检测模型用于识别图像数据中具备显著性的图像区域;
将所述时间范围内的图像数据输入至所述显著区域检测模型中,以识别所述图像数据中具备显著性的图像区域数据。


8.根据权利要求1-6任一所述的方法,其特征在于,所述根据所述图像区域数据与所述样本图像数据训练内容审核模型,包括:
确定对所述样本视频文件标记的、表征内容违规的违规类别;
获取深度神经网络与预训练模型;
使用所述预训练模型初始化所述深度神经网络;
基于反向传播,采用所述图像区域数据、所述样本图像数据与所述违规类别将所述深度神经网络训练为内容审核模型。


9.一种视频内容的审核方法,其特征在于,包括:
提取目标视频文件的部分图像数据,作为目标图像数据;
若所述目标图像数据的内容违规,则定位所述目标图像数据在所述目标视频文件...

【专利技术属性】
技术研发人员:石峰刘振强
申请(专利权)人:广州市网星信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1