网页内容敏感类型确定方法、装置、介质和计算机设备制造方法及图纸

技术编号:24799849 阅读:17 留言:0更新日期:2020-07-07 21:06
本发明专利技术提供了一种网页内容敏感类型确定方法、装置、计算机存储介质和计算机设备;该方法包括:根据待评估网页的URL获得待评估网页内容;使用与所述待评估网页内容的内容类型对应的敏感度评估模型对所述待评估网页内容进行评估,获得对应的模型评估值;判断所述模型评估值是否位于预设阈值区间;若是,则将所述待评估网页内容发送到人工审核客户端;接收与所述待评估网页内容对应的人工评估值,根据所述人工评估值确定所述待评估网页内容的敏感类型。通过本发明专利技术技术方案,能够快速为网页内容进行敏感类型的初步评估,并且使用人工为属于预设情况中的网页内容做进一步评估,保证网页内容的鉴别准确率,从而显著提高了网页内容的鉴别效率。

【技术实现步骤摘要】
网页内容敏感类型确定方法、装置、介质和计算机设备
本专利技术涉及内容识别领域,具体而言,本专利技术涉及一种网页内容敏感类型确定方法、装置、介质和计算机设备。
技术介绍
随着互联网的迅猛发展,网络信息已经成为人们生活中必不可少的一部分,目前互联网上的网页数以亿计,网页上的内容五花八门,而提供敏感内容比如涉及色情的视频、图片等内容的网站也越来越多,这会使网络环境变得很复杂,并且会对青少年的健康成长造成很大影响。因此,对互联网上的网页的内容进行鉴别监控有十分重要的意义。目前对网页内容的鉴别监控手段一般是先预设敏感词库,然后根据预设敏感词库对网页的文本数据进行敏感词匹配鉴别,但是提供敏感内容的网站会对网页内的文本进行一些技术处理从而避免被敏感词匹配到;另一种常用的鉴别监控手段是使用人工全量浏览待审核网页中所有图片、音频或视频的手段进行鉴别筛查,然而尽管人工全量浏览这种内容鉴别手段的鉴别准确率比前一种高,但是由于需要鉴别的网页数量庞大,使得这种手段在实施时需要耗费大量的人力资源,并且人工鉴别时长往往很长,导致内容鉴别效率低下。
技术实现思路
本专利技术针对现有技术的缺点,提供了一种网页内容敏感类型确定方法、装置、介质和计算机设备,本专利技术技术方案能够快速为网页内容进行敏感类型的初步评估,并且使用人工为属于预设情况中的网页内容做进一步评估,保证网页内容的鉴别准确率,从而显著提高了网页内容的鉴别效率。本专利技术实施例根据第一方面提供了一种网页内容敏感类型确定方法,包括:根据待评估网页的URL获得待评估网页内容;使用与所述待评估网页内容的内容类型对应的敏感度评估模型对所述待评估网页内容进行评估,获得对应的模型评估值;判断所述模型评估值是否位于预设阈值区间;若是,则将所述待评估网页内容发送到人工审核客户端;接收与所述待评估网页内容对应的人工评估值,根据所述人工评估值确定所述待评估网页内容的敏感类型。进一步地,所述根据待评估网页的URL获得待评估网页内容,包括:获取所述待评估网页的URL对应的网页数据;从所述网页数据中提取出与预设匹配规则匹配的链接;根据所述链接获得网页内容;将所述网页内容作为待评估网页内容。进一步地,所述将所述网页内容作为待评估网页内容,包括:若所述网页内容的内容类型是图像,则获取所述网页内容的分辨率阈值;判断所述分辨率阈值是否大于预设分辨率阈值;若大于,则将所述网页内容作为待评估网页内容。进一步地,所述将所述网页内容作为待评估网页内容,包括:若所述网页内容的内容类型是图像,则使用预设算法对所述网页内容进行处理,获得图片特征值;将所述图片特征值与所述待评估网页的URL对应的预存图片特征值进行对比,获得图片特征值差值;若所述图片特征值差值大于预设特征值阈值,则将所述网页内容作为待评估网页内容。进一步地,所述将所述网页内容作为待评估网页内容,包括:若所述网页内容的内容类型是图像,则确定所述网页内容的图像数量;判断所述图像数量是否小于预设数量阈值;若所述图像数量小于预设数量阈值,则根据所述待评估网页的URL获得所述待评估网页的网页截图;将所述网页截图作为待评估网页内容。进一步地,所述根据所述人工评估值确定所述待评估网页内容的敏感类型,之后包括:若所述敏感类型为一级敏感类型,则确定所述待评估网页对应的网页敏感类型为第一敏感度,停止对所述待评估网页中没有确定对应的敏感类型的网页内容进行确定;若所述敏感类型不是一级敏感类型,则判断所述待评估网页中的所有网页内容是否都有确定对应的敏感类型;如果是都有确定对应的敏感类型,则确定所述待评估网页对应的网页敏感类型为第二敏感度;如果不是都有确定对应的敏感类型,则继续对没有确定对应的敏感类型的网页内容进行确定。进一步地,所述根据所述人工评估值确定所述待评估网页内容的敏感类型,之后包括:对比所述模型评估值和所述人工评估值,获得评估差值;判断所述评估差值是否位于预设评估值差值区间;若是,则将所述待评估网页内容和所述人工评估值作为样本网页内容和其评估值;使用所述样本网页内容和其评估值对所述内容类型对应的敏感度评估模型进行训练,得到训练好的敏感度评估模型。本专利技术实施例根据第二方面提供了一种网页内容敏感类型确定装置,包括:内容获得模块,用于根据待评估网页的URL获得待评估网页内容;模型评估值获得模块,用于使用与所述待评估网页内容的内容类型对应的敏感度评估模型对所述待评估网页内容进行评估,获得对应的模型评估值;判断模块,用于判断所述模型评估值是否位于预设阈值区间;内容发送模块,用于当所述模型评估值位于预设阈值区间时,将所述待评估网页内容发送到人工审核客户端;敏感类型确定模块,用于接收与所述待评估网页内容对应的人工评估值,根据所述人工评估值确定所述待评估网页内容的敏感类型。本专利技术实施例根据第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的网页内容敏感类型确定方法。本专利技术实施例根据第四方面提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的网页内容敏感类型确定方法。在本专利技术实施例中,根据待评估网页的URL获得待评估网页内容,先使用与所述待评估网页内容的内容类型对应的敏感度评估模型对所述待评估网页内容进行评估,获得对应的模型评估值,之后判断所述模型评估值是否位于预设阈值区间;如果所述模型评估值位于预设阈值区间,就将所述待评估网页内容发送到人工审核客户端;在接收到与所述待评估网页内容对应的人工评估值后,根据所述人工评估值确定所述待评估网页内容的敏感类型。本专利技术技术方案,利用敏感度评估模型来快速为网页内容进行敏感类型的初步评估,并且使用人工为属于预设情况中的网页内容做进一步评估,保证网页内容的鉴别准确率,通过结合评估模型和人工鉴别两种手段显著提高了网页内容的鉴别效率。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术一个实施例的网页内容敏感类型确定方法的流程示意图;图2为本专利技术一个实施例的根据待评估网页的URL获得待评估网页内容的方法的流程示意图;图3为本专利技术一个实施例的确定待评估网页内容的方法流程示意图;图4为本专利技术另一个实施例的确定待评估网页内容的方法流程示意图;图5为本专利技术又一个实施例的确定待评估网页内容的方法流程示意图;图6为本专利技术一个实施例的网页内容敏感类型确定装置的结构本文档来自技高网...

【技术保护点】
1.一种网页内容敏感类型确定方法,其特征在于,包括:/n根据待评估网页的URL获得待评估网页内容;/n使用与所述待评估网页内容的内容类型对应的敏感度评估模型对所述待评估网页内容进行评估,获得对应的模型评估值;/n判断所述模型评估值是否位于预设阈值区间;/n若是,则将所述待评估网页内容发送到人工审核客户端;/n接收与所述待评估网页内容对应的人工评估值,根据所述人工评估值确定所述待评估网页内容的敏感类型。/n

【技术特征摘要】
1.一种网页内容敏感类型确定方法,其特征在于,包括:
根据待评估网页的URL获得待评估网页内容;
使用与所述待评估网页内容的内容类型对应的敏感度评估模型对所述待评估网页内容进行评估,获得对应的模型评估值;
判断所述模型评估值是否位于预设阈值区间;
若是,则将所述待评估网页内容发送到人工审核客户端;
接收与所述待评估网页内容对应的人工评估值,根据所述人工评估值确定所述待评估网页内容的敏感类型。


2.如权利要求1所述的网页内容敏感类型确定方法,其特征在于,
所述根据待评估网页的URL获得待评估网页内容,包括:
获取所述待评估网页的URL对应的网页数据;
从所述网页数据中提取出与预设匹配规则匹配的链接;
根据所述链接获得网页内容;
将所述网页内容作为待评估网页内容。


3.如权利要求2所述的网页内容敏感类型确定方法,其特征在于,
所述将所述网页内容作为待评估网页内容,包括:
若所述网页内容的内容类型是图像,则获取所述网页内容的分辨率阈值;
判断所述分辨率阈值是否大于预设分辨率阈值;
若大于,则将所述网页内容作为待评估网页内容。


4.如权利要求2所述的网页内容敏感类型确定方法,其特征在于,
所述将所述网页内容作为待评估网页内容,包括:
若所述网页内容的内容类型是图像,则使用预设算法对所述网页内容进行处理,获得图片特征值;
将所述图片特征值与所述待评估网页的URL对应的预存图片特征值进行对比,获得图片特征值差值;
若所述图片特征值差值大于预设特征值阈值,则将所述网页内容作为待评估网页内容。


5.如权利要求2所述的网页内容敏感类型确定方法,其特征在于,
所述将所述网页内容作为待评估网页内容,包括:
若所述网页内容的内容类型是图像,则确定所述网页内容的图像数量;
判断所述图像数量是否小于预设数量阈值;
若所述图像数量小于预设数量阈值,则根据所述待评估网页的URL获得所述待评估网页的网页截图;
将所述网页截图作为待评估网页内容。


6.如权利要求1所述的网页内容敏感类型确定方法,其特征在于,
所述根据所述...

【专利技术属性】
技术研发人员:梅小伟罗伟汛
申请(专利权)人:广州市百果园信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1