敏感词过滤方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20992691 阅读:19 留言:0更新日期:2019-04-29 22:38
本发明专利技术公开一种敏感词过滤方法、装置、计算机设备及存储介质,该敏感词过滤方法包括:获取客户端发送的原始字符串和场景应用类型;采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词;对所述目标敏感词进行字符替换处理,获取目标字符串,并在所述客户端显示所述目标字符串。该方法可有效解决部分网民为使用违规手段规避监管,导致敏感词过滤力度较低以及识别率不高的问题。

Sensitive Word Filtering Method, Device, Computer Equipment and Storage Media

The invention discloses a method, device, computer equipment and storage medium for filtering sensitive words. The method includes acquiring the original string sent by the client and the type of scene application; preliminary filtering the original string by using regular expression matching algorithm to obtain the valid string; and adopting preset extraction rules corresponding to the type of scene application. To extract the valid string and obtain the string to be tested; to detect the sensitive words of the string to be tested and obtain the target sensitive words by using the improved multi-pattern matching algorithm; to replace the characters of the target sensitive words to obtain the target string, and to display the target string on the client side. This method can effectively solve the problem that some netizens avoid supervision by using illegal means, resulting in low filtering power of sensitive words and low recognition rate.

【技术实现步骤摘要】
敏感词过滤方法、装置、计算机设备及存储介质
本专利技术涉及敏感词过滤
,尤其涉及一种敏感词过滤方法、装置、计算机设备及存储介质。
技术介绍
随着信息技术的迅猛发展,由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意将互联网作为传播载体来表达观点和传播思想。部分网民恶意通过互联网传播带有敏感词汇的评论,造成网络环境不够健康。为了保证网络环境的健康,通常会采取监管措施对网民发表的文章、评论或者其他信息进行敏感词汇进行过滤,但由于部分网民通过跳词或者其他规避手段规避监管,导致目前敏感词过滤的力度较低,识别率不高。
技术实现思路
本专利技术实施例提供一种敏感词过滤方法、装置、计算机设备及存储介质,以解决当前敏感词过滤力度较低以及识别率不高的问题。一种敏感词过滤方法,包括:获取客户端发送的原始字符串和场景应用类型;采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词;对所述目标敏感词进行字符替换处理,获取目标字符串,并在所述客户端显示所述目标字符串。一种敏感词过滤装置,包括:原始字符串获取模块,用于获取客户端发送的原始字符串和场景应用类型;有效字符串获取模块,用于采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;待测字符串获取模块,用于采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;目标敏感词获取模块,用于采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词;目标字符串获取模块,用于对所述目标敏感词进行字符替换处理,获取目标字符串,并在所述客户端显示所述目标字符串。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述敏感词过滤方法的步骤。一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述敏感词过滤方法的步骤。上述敏感词过滤方法、装置、计算机设备及存储介质中,通过获取客户端发送的原始字符串和场景应用类型,以便采用正则表达式匹配算法对原始字符串进行匹配,获取有效字符串,以排除特殊字符和/或标点符号等干扰因素,提高后续敏感词过滤的效率。再采用与场景应用类型相对应的预设提取规则,对有效字符串进行提取,获取待测字符串,以初步排除非敏感词干扰,进一步增加获取敏感词过滤的效率。通过采用改进多模式匹配算法对待测字符串进行敏感词检测,获取目标敏感词,以有效提高敏感词过滤的力度和识别率。最后,对目标敏感词进行字符替换处理,获取目标字符串,并在客户端显示不包含敏感词的目标字符串,保证网络环境的健康。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中敏感词过滤方法的一应用环境示意图;图2是本专利技术一实施例中敏感词过滤方法的一示例图;图3是本专利技术一实施例中敏感词过滤方法的一流程图;图4是本专利技术一实施例中敏感词过滤方法的一流程图;图5是图3中步骤S40的一具体流程图;图6是图5中步骤S41的一具体流程图;图7是本专利技术一实施例中敏感词过滤方法的一流程图;图8是本专利技术一实施例中敏感词过滤装置的一示意图;图9是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的敏感词过滤方法可应用在聊天室、论坛、各应用中的评论项、弹幕和朋友圈发表文章等场景,用于对网民采用跳词等规避手段发表的不健康言论进行过滤,以有效保证网络环境的健康。该敏感词过滤方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。在一实施例中,如图3所示,提供一种敏感词过滤方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:S10:获取客户端发送的原始字符串和场景应用类型。其中,原始字符串可为弹幕语句、各应用中的评论语句(如论坛中发表的语句)和朋友圈的发表文章。场景应用类型包括但不限于聊天室、论坛,各应用中的评论项、弹幕和朋友圈等类型。具体地,以应用在弹幕这一场景应用类型为例,当用户在观看直播或在线视频时,输入弹幕语句对直播内容或视频内容进行评论,以使服务器获取的弹幕语句即为原始字符串。S20:采用正则表达式匹配算法对原始字符串进行匹配,获取有效字符串。其中,正则表达式匹配算法是指开发人员预先设置的用于对原始字符串中的中英文和数字进行匹配的算法。有效字符串是指采用正则表达式匹配算法对原始字符串进行匹配处理后获取的不包含特殊字符(如:空格)和/或标点符号的字符串。本实施例中,可采用正则表达式(如:^[\u4e00-\u9fa5_a-zA-Z0-9]+$)对原始字符串进行匹配,以获取不包含特殊字符和/或标点符号的有效字符串,以过滤掉特殊字符和/或标点符号等干扰因素,增加后续敏感词过滤的效率。S30:采用与场景应用类型相对应的预设提取规则,对有效字符串进行提取,获取待测字符串。其中,预设提取规则是预先按照不同的场景应用类型进行设定的用于提取最大概率包含敏感词的待测字符串的规则。待测字符串是采用与场景应用类型相对应的预设提取规则,对有效字符串进行提取所获取的初步排除非敏感词干扰的字符串。由于在聊天室、论坛、各应用中的评论项、弹幕和朋友圈等场景中,服务器获取的有效字符串具有多变性,且其中包括非敏感词字段,为了减少后续算法的复杂度,因此需将敏感词字段单独提取出来进行敏感词过滤,以初步排除非敏感词干扰,增加获取敏感词过滤的效率。例如:在论坛中,由于使用论坛的用户在发表文章时,中英文混杂的情况较多,因此可将预设提取规则设置为,连续5(该连续字符的个数可根据实际进行调整,在此仅做举例说明,不做限定)个英文字符作为提取边界,并将该段字符的前数5个字符和后数5个字符,全部提取出来,获取待测字符串。例如:有效字符串为“你看啥呢你又在干嘛shitstupid你那边反馈”,通过对有效字符串中的字符进行检测,以获取到“shits”为连续5个英文字符,则将这5个连续的英文字符作为提取边界,将前数5个字符“你又在干嘛”和后数5个字符“tupid”提取出来作为待测字符串,即将“你又在干嘛shitstupid”作为待测字符串,以便后续对待测字符串进行单独分析,提高敏感词过滤的效率。又例如,在朋友圈中,由于目前微信的推广使用,微商也随之快速发展,同时一些不法分子也掺杂在微商中,通过让用户添加微信号码,以本文档来自技高网...

【技术保护点】
1.一种敏感词过滤方法,其特征在于,包括:获取客户端发送的原始字符串和场景应用类型;采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词;对所述目标敏感词进行字符替换处理,获取目标字符串,并在所述客户端显示所述目标字符串。

【技术特征摘要】
1.一种敏感词过滤方法,其特征在于,包括:获取客户端发送的原始字符串和场景应用类型;采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词;对所述目标敏感词进行字符替换处理,获取目标字符串,并在所述客户端显示所述目标字符串。2.如权利要求1所述的敏感词过滤方法,其特征在于,在所述采用正则表达式匹配算法对所述原始字符串进行匹配,获取有效字符串的步骤之后,所述敏感词过滤方法还包括:获取所述原始字符串的长度和与所述场景应用类型相对应的预设长度;若所述原始字符串的长度大于所述预设长度,则执行所述采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取所述待测字符串的步骤;若所述原始字符串的长度不大于所述预设长度,则将所述有效字符串作为所述待测字符串。3.如权利要求1所述的敏感词过滤方法,其特征在于,所述待测字符串包括按照顺序标签存储的至少一个待测字符;所述采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词,包括:根据预先创建的敏感词库构建字母树,所述字母树包括成功指针、失败指针和根节点;基于所述字母树,按照所述待测字符串中的待测字符的顺序标签,依序对所述待测字符串中的所述待测字符进行敏感词检测;若第一顺序标签对应的第一待测字符在字母树中存在,则将所述第一待测字符作为当前节点,按照字母树中成功指针的路径,将所述成功指针指向下一个节点对应的特定字符;若所述特定字符和第二顺序标签对应的第二待测字符匹配,则将所述第二待测字符作为当前节点,继续执行所述按照字母树中成功指针的路径,将成功指针指向下一个成功节点对应的特定字符的步骤,直至所述失败指针指向所述根节点时,终止循环,获取目标终止节点,基于所述根节点和所述终止节点按照所述字母树中成功指针的路径进行遍历,获取目标敏感词;若所述特定字符和所述第二顺序标签对应的第二待测字符不匹配,则按照预设验证规则验证所述第一待测字符是否为敏感字符;若所述第一待测字符为敏感字符,则将所述特定字符对应的失败指针指向所述当前节点对应的所述第一待测字符,以保留所述第一待测字符,并继续执行所述基于所述字母树,按照所述待测字符串中的待测字符的顺序标签,依序对所述待测字符串中的所述待测字符进行敏感词检测的步骤;若所述第一待测字符为非敏感字符,则按照所述字母树中所述失败指针的指向,将所述失败指针指向失败字符节点,并继续执行所述基于所述字母树,按照所述待测字符串中的待测字符的顺序标签,依序对所述待测字符串中的所述待测字符进行敏感词检测的步骤,直至检测到所述待测字符串中的最后一个顺序标签对应的待测字符。4.如权利要求1所述的敏感词过滤方法,其特征在于,所述根据预先创建的敏感词库构建字母树,包括:根据所述预先创建的敏感词库按照公共前缀原则构建所述成功指针,获取成功树;所述成功树包括至少一个成功节点和一根节点;判断所述成功节点的父亲节点是否为根节点;若所述成功节点的父亲节点是所述根节点,则将所述成功节点的失败指针指向所述根节点;若所述成功节点的父亲节点不是所述根节点,则获取所述成功节点的父亲节点,基于所述成功节点的父亲节点对应的失败字符节点按照所述成功指针的路径,获取与所述失败字符节点对应的待匹配子节点,若所述待匹配子节点与所述成功节点匹配,则将所述成功节点的失败指针指向所述待匹配子节点;若所述待匹配子节点与所述成功节点不匹配,则将所述成功节点的父亲节点对应的失败字符节点作为当前字符节点,若所述当前字符节点的父亲节点不是所述根节点,则获取所述当前字符节点的父亲节点对应的失败字符节点的待匹配子节点;若所述待匹配子节点与所述成功节点匹配,则将所述...

【专利技术属性】
技术研发人员:张中楫
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1