敏感词处理方法、装置及可读存储介质制造方法及图纸

技术编号:26171344 阅读:15 留言:0更新日期:2020-10-31 13:43
本申请实施例提供一种敏感词处理方法、装置及可读存储介质,该方法通过获取待识别文本,并根据预先建立的决策树对待识别文本进行敏感词识别,获得敏感词识别结果;其中,本申请实施例中的决策树是预先通过DFA算法以及敏感词库建立的,敏感词库是根据运营商数据库建立的。根据运营商数据建立的敏感词库与运营商想要过滤的敏感词的契合度较高,因此,能够有效提高敏感词识别结果的准确度;另外,本申请实施例中决策树能够自动对待识别文本进行识别,提高了敏感词识别的处理效率。

【技术实现步骤摘要】
敏感词处理方法、装置及可读存储介质
本申请涉及数据处理
,尤其涉及一种敏感词处理方法、装置及可读存储介质。
技术介绍
随着互联网技术的不断发展,人们可以通过互联网快速获取信息,与此同时,一些非法以及不良言论也可能出现在互联网信息中,因此,对于不法及不良言论的识别以及过滤对于互联网安全来说至关重要。现有技术中,通常通过建立敏感词库对互联网信息进行敏感词识别,并根据识别结果确定文本中是否存在敏感词。现有技术中的敏感词库中的敏感词通常是直接从互联网下载,这会导致敏感词库中的敏感词与运营商想要过滤的敏感词之间的契合度较低,则进一步会导致敏感词识别结果的准确度较低。
技术实现思路
本申请实施例提供一种敏感词处理方法、装置及可读存储介质,以提高敏感词识别结果的准确度。第一方面,本申请实施例提供一种敏感词处理方法,该方法包括:获取待识别文本;根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机DFA算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。可选地,所述方法还包括:根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集,所述第一敏感词子集中的敏感词与所述敏感词库中的至少一个其他敏感词子集中的敏感词的相似度满足预设要求。可选地,所述运营商数据库中的文本内容为结构化的文本内容。可选地,所述方法还包括:根据所述敏感词识别结果,过滤所述待识别文本中的敏感词,获得过滤后的文本。可选地,所述方法还包括:根据所述第一敏感词子集对所述敏感词挖掘模型进行优化,获得优化后的敏感词挖掘模型。第二方面,本申请实施例还提供一种敏感词处理装置,该装置包括:获取模块,用于获取待识别文本;处理模块,用于根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机DFA算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。可选地,所述处理模块,还用于根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集,所述第一敏感词子集中的敏感词与所述敏感词库中的至少一个其他敏感词子集中的敏感词的相似度满足预设要求。可选地,所述处理模块,还用于根据所述第一敏感词子集对所述敏感词挖掘模型进行优化,获得优化后的敏感词挖掘模型。第三方面,本申请实施例还提供一种敏感词处理装置,包括:存储器、处理器及计算机程序指令;所述存储器存储所述计算机程序指令;所述处理器执行所述计算机程序指令,以执行如第一方面任一项所述的敏感词处理方法。第四方面,本申请实施例还提供一种敏感词处理装置,包括:程序;所述程序被处理器执行,以执行如第一方面任一项所述的敏感词处理方法。第五方面,本申请实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行本申请专利技术实施例第一方面任一项所述的敏感词处理方法。本申请实施例提供一种敏感词处理方法、装置及可读存储介质,该方法通过获取待识别文本,并根据预先建立的决策树对待识别文本进行敏感词识别,获得敏感词识别结果;其中,本申请实施例中的决策树是预先通过确定DFA算法以及敏感词库建立的,敏感词库是根据运营商数据库建立的。根据运营商数据建立的敏感词库与运营商想要过滤的敏感词的契合度较高,因此,能够有效提高敏感词识别结果的准确度;另外,本申请实施例中决策树能够自动对待识别文本进行识别,提高了敏感词识别的处理效率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请提供的敏感词处理方法适用场景示意图;图2为本申请提供的敏感词处理方法实施例一的流程图;图3为本申请提供的决策树的建立方法实施例一的流程图;图4为本申请提供的敏感词处理方法实施例二的流程图;图5a为本申请提供的敏感词处理方法实施例三的流程图;图5b为本申请一实施例提供的结构化文本内容的结构示意图;图6为本申请提供的敏感词处理装置实施例一的结构示意图;图7为本申请提供的敏感词处理装置实施例二的结构示意图;图8为本申请提供的敏感词处理装置实施例三的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请实施例提供的敏感词处理方法的应用场景的示意图。在图1所示的场景包括:至少一个终端设备101、运营商的网络设备102、敏感词处理装置103、第三方应用平台104。示例性地,该终端设备101可以为智能手机、计算机、IPAD等电子设备。终端设备101可以通过安装的客户端连接至运营商的网络设备102,并通过运营商的网络设备102连接至第三方应用平台104,或者,终端设备101还可以通过网页连接至运营商的网络设备102,并通过运营商的网络设备102连接至第三方应用平台104。示例性地,第三方应用例如可以为社交类应用、视频类应用、音频类应用、新闻类应用等等中的任意一种或多种。终端设备101可以通过运营商的网络设备102向第三方应用平台104发送文本信息,以使第三方应用平台104发布该文本信息。运营商的网络设备102可以为运营商的基站、无线接入点等设备。敏感词处理装置103可以设置可以为独立的设备,或者,也可以与运营商的网络设备102集成在一起,敏感词处理装置103能够对运营商的网络设备102接收的文本信息进行敏感词识别以及过滤等处理,并将符合运营商要求的文本信息发送至第三方应用平台104。现有技术中,通常先建立敏感词库,敏感词处理装置根据敏感词库对文本信息进行敏感词识别,并根据识别结果确定文本中是否存在敏感词。然而,现有技术中的敏感词库包括敏感词通常是直接从互联网下载,这会导致敏感词库中的敏感词与运营商想要过滤的敏感词之间的契合度较低,则进一步会导致敏感词识别结果的准确度较低。基于现有技术中存在的上述问题,本申请实施例提供一种敏感词处理方法,通过基于运营商数据库建立的敏感词库建立决策树,并根据该决策树对文本内容进行敏感词识别及过滤。由敏感词库是基于运营商的数据库建立的,因此,基于本文档来自技高网...

【技术保护点】
1.一种敏感词处理方法,其特征在于,包括:/n获取待识别文本;/n根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机DFA算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。/n

【技术特征摘要】
1.一种敏感词处理方法,其特征在于,包括:
获取待识别文本;
根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机DFA算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集,所述第一敏感词子集中的敏感词与所述敏感词库中的至少一个其他敏感词子集中的敏感词的相似度满足预设要求。


3.根据权利要求2所述的方法,其特征在于,所述运营商数据库中的文本内容为结构化的文本内容。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
根据所述敏感词识别结果,过滤所述待识别文本中的敏感词,获得过滤后的文本。


5.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
根据所述第一敏感词子集对所述敏感词挖掘模型进行优化,获得优化后的敏感词挖掘模型。


6.一种敏感词处理装置,其特征在于,包括:
获...

【专利技术属性】
技术研发人员:牟海刚张煜于向丽
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1