一种基于关键词的敏感内容过滤方法及装置制造方法及图纸

技术编号:37989565 阅读:10 留言:0更新日期:2023-06-30 10:04
本申请提供一种基于关键词的敏感内容过滤方法及装置,方法包括:获取元数据;分析元数据是否包含敏感词;如果元数据包含敏感词,将包含敏感词的元数据加入黑名单;如果元数据不包含敏感词,分析不包含敏感词的元数据是否属于敏感内容;如果不包含敏感词的元数据属于敏感内容,将属于敏感内容的元数据加入黑名单;如果不包含敏感词的元数据属于非敏感内容,将属于非敏感内容的元数据加入白名单。本方案通过分析元数据是否包含敏感词和/或属于敏感内容来决定元数据是否可以加入白名单用于显示,即不包含敏感词且不属于敏感内容的元数据可以加入白名单用于显示,简化了识别敏感内容的过程,从而提高了识别敏感内容的效率。从而提高了识别敏感内容的效率。从而提高了识别敏感内容的效率。

【技术实现步骤摘要】
一种基于关键词的敏感内容过滤方法及装置


[0001]本专利技术涉及词语过滤
,特别涉及一种基于关键词的敏感内容过滤方法及装置。

技术介绍

[0002]随着科技的快速发展,互联网的功能越来越完善;现如今,互联网已经成为了人们获取知识和信息的重要途径。但是,在互联网获取的知识和信息中包含敏感内容或其他不健康的信息,这些不健康的信息的存在和传播会严重影响人们的身心健康。所以,屏蔽不健康的信息,为人们提供一个健康、安全和积极向上的内容推荐服务是非常重要的。
[0003]目前常见的屏蔽不健康信息的方法是基于关键词权值的文本过滤法来识别敏感内容,即不健康的信息,以便在内容发布前检索到敏感内容并加以屏蔽;但是该方法识别敏感内容的过程过于繁杂,会降低识别敏感内容的效率。

技术实现思路

[0004]针对上述现有技术的缺点,本专利技术提供一种基于关键词的敏感内容过滤方法及装置,可以克服因识别敏感内容的过程过于繁琐而降低识别敏感内容的效率的缺点。
[0005]本申请第一方面提供了一种基于关键词的敏感内容过滤方法,所述方法包括:
[0006]获取元数据;
[0007]分析所述元数据是否包含敏感词;
[0008]如果所述元数据包含敏感词,将包含敏感词的所述元数据加入黑名单;所述黑名单包含的所述元数据用于被屏蔽;
[0009]如果所述元数据不包含敏感词,分析不包含敏感词的所述元数据是否属于敏感内容;
[0010]如果不包含敏感词的所述元数据属于敏感内容,将属于敏感内容的所述元数据加入所述黑名单;
[0011]如果不包含敏感词的所述元数据属于非敏感内容,将属于非敏感内容的所述元数据加入白名单;所述白名单包含的所述元数据用于被显示。
[0012]可选的,所述分析所述元数据是否包含敏感词,包括:
[0013]使用敏感词过滤算法来分析所述元数据是否包含敏感词。
[0014]可选的,所述分析所述元数据是否包含敏感词之前,还包括:
[0015]删除所述元数据包含的特殊字符。
[0016]可选的,根据一种基于关键词的敏感内容过滤方法,还包括:
[0017]当所述敏感词更新时,返回执行所述分析所述元数据是否包含敏感词的步骤。
[0018]可选的,所述分析所述元数据是否包含敏感词之前,还包括:
[0019]在多个预设业务场景中确定和所述元数据匹配的目标业务场景;
[0020]获取和所述目标业务场景对应的敏感词。
[0021]本申请第二方面提供了一种基于关键词的敏感内容过滤装置,所述装置包括:
[0022]获取模块,用于获取元数据;
[0023]分析处理模块,用于分析所述元数据是否包含敏感词;
[0024]如果所述元数据包含敏感词,将包含敏感词的所述元数据加入黑名单;所述黑名单包含的所述元数据用于被屏蔽;
[0025]如果所述元数据不包含敏感词,分析不包含敏感词的所述元数据是否属于敏感内容;
[0026]如果不包含敏感词的所述元数据属于敏感内容,将属于敏感内容的所述元数据加入所述黑名单;
[0027]如果不包含敏感词的所述元数据属于非敏感内容,将属于非敏感内容的所述元数据加入白名单;所述白名单包含的所述元数据用于被显示。
[0028]可选的,所述分析处理模块用于分析所述元数据是否包含敏感词,包括:
[0029]所述分析处理模块用于使用敏感词过滤算法来分析所述元数据是否包含敏感词。
[0030]可选的,所述分析处理模块用于分析所述元数据是否包含敏感词之前,还包括:
[0031]所述分析处理模块用于删除所述元数据包含的特殊字符。
[0032]可选的,所述装置还包括敏感词更新模块:
[0033]所述敏感词更新模块用于监听所述敏感词的更新。
[0034]可选的,所述分析处理模块用于分析所述元数据是否包含敏感词之前,还包括:
[0035]所述分析处理模块用于在多个预设业务场景中确定和所述元数据匹配的目标业务场景;
[0036]还用于获取和所述目标业务场景对应的敏感词。
[0037]本申请提供一种基于关键词的敏感内容过滤方法及装置,方法包括:获取元数据;分析元数据是否包含敏感词;如果元数据包含敏感词,将包含敏感词的元数据加入黑名单;黑名单包含的所述元数据用于被屏蔽;如果元数据不包含敏感词,分析不包含敏感词的元数据是否属于敏感内容;如果不包含敏感词的元数据属于敏感内容,将属于敏感内容的元数据加入黑名单;如果不包含敏感词的元数据属于非敏感内容,将属于非敏感内容的元数据加入白名单;白名单包含的元数据用于被显示。本方案通过分析元数据是否包含敏感词和/或属于敏感内容来决定元数据是否可以加入白名单用于显示,即不包含敏感词且不属于敏感内容的元数据可以加入白名单用于显示,简化了识别敏感内容的过程,从而提高了识别敏感内容的效率。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0039]图1为本实施例提供的一种基于关键词的敏感内容过滤方法的流程图;
[0040]图2为本实施例提供的一种基于更新敏感信息的元数据过滤方法的流程图;
[0041]图3为本实施例提供的一种基于黑名单的元数据过滤方法的示意图;
[0042]图4为本实施例提供的一种基于关键词的敏感内容过滤方法示意图;
[0043]图5为本实施例提供的一种关键词分析方法的示意图;
[0044]图6为本实施例提供的一种基于关键词的敏感内容过滤装置的结构示意图。
具体实施方式
[0045]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0046]实施例一
[0047]请参见图1,为本实施例提供的一种基于关键词的敏感内容过滤方法的流程图。
[0048]S101,获取元数据。
[0049]本实施例中,元数据可以理解为包含有文字信息的数据,例如:元数据可以是一篇文章、一条评论或一个标题等,也可以是其他相关的数据,本实施例不做限定。
[0050]如果获取的元数据包含特殊字符,则需要删除该元数据中的特殊字符,例如:获取的元数据中有某一个词语如“参*加”的表述,则需要删除其中

*


[0051]如果获取的元数据中的某一个词语为“目的”的表述,则需要删除该词语中的空格;
[0052]如果元数据中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键词的敏感内容过滤方法,其特征在于,包括:获取元数据;分析所述元数据是否包含敏感词;如果所述元数据包含敏感词,将包含敏感词的所述元数据加入黑名单;所述黑名单包含的所述元数据用于被屏蔽;如果所述元数据不包含敏感词,分析不包含敏感词的所述元数据是否属于敏感内容;如果不包含敏感词的所述元数据属于敏感内容,将属于敏感内容的所述元数据加入所述黑名单;如果不包含敏感词的所述元数据属于非敏感内容,将属于非敏感内容的所述元数据加入白名单;所述白名单包含的所述元数据用于被显示。2.根据权利要求1所述的方法,其特征在于,所述分析所述元数据是否包含敏感词,包括:使用敏感词过滤算法来分析所述元数据是否包含敏感词。3.根据权利要求1所述的方法,其特征在于,所述分析所述元数据是否包含敏感词之前,还包括:删除所述元数据包含的特殊字符。4.根据权利要求1所述的方法,其特征在于,还包括:当所述敏感词更新时,返回执行所述分析所述元数据是否包含敏感词的步骤。5.根据权利要求1所述的方法,其特征在于,所述分析所述元数据是否包含敏感词之前,还包括:在多个预设业务场景中确定和所述元数据匹配的目标业务场景;获取和所述目标业务场景对应的敏感词。6.一种基于关键词的敏感内容过滤装置,其特征在于,所述装置包括:获取模块,用于获取元数据;...

【专利技术属性】
技术研发人员:瞿佳唐晔张磊贺周洲张炜刘文波
申请(专利权)人:湖南快乐阳光互动娱乐传媒有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1