The invention discloses a method, device, computer equipment and storage medium for filtering sensitive words. The method includes acquiring the original string sent by the client and the type of scene application; preliminary filtering the original string by using regular expression matching algorithm to obtain the valid string; and adopting preset extraction rules corresponding to the type of scene application. To extract the valid string and obtain the string to be tested; to detect the sensitive words of the string to be tested and obtain the target sensitive words by using the improved multi-pattern matching algorithm; to replace the characters of the target sensitive words to obtain the target string, and to display the target string on the client side. This method can effectively solve the problem that some netizens avoid supervision by using illegal means, resulting in low filtering power of sensitive words and low recognition rate.
【技术实现步骤摘要】
敏感词过滤方法、装置、计算机设备及存储介质
本专利技术涉及敏感词过滤
,尤其涉及一种敏感词过滤方法、装置、计算机设备及存储介质。
技术介绍
随着信息技术的迅猛发展,由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意将互联网作为传播载体来表达观点和传播思想。部分网民恶意通过互联网传播带有敏感词汇的评论,造成网络环境不够健康。为了保证网络环境的健康,通常会采取监管措施对网民发表的文章、评论或者其他信息进行敏感词汇进行过滤,但由于部分网民通过跳词或者其他规避手段规避监管,导致目前敏感词过滤的力度较低,识别率不高。
技术实现思路
本专利技术实施例提供一种敏感词过滤方法、装置、计算机设备及存储介质,以解决当前敏感词过滤力度较低以及识别率不高的问题。一种敏感词过滤方法,包括:获取客户端发送的原始字符串和场景应用类型;采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词;对所述目标敏感词进行字符替换处理,获取目标字符串,并在所述客户端显示所述目标字符串。一种敏感词过滤装置,包括:原始字符串获取模块,用于获取客户端发送的原始字符串和场景应用类型;有效字符串获取模块,用于采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;待测字符串获取模块,用于采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;目标敏感词获取模块,用于采用改进 ...
【技术保护点】
1.一种敏感词过滤方法,其特征在于,包括:获取客户端发送的原始字符串和场景应用类型;采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词;对所述目标敏感词进行字符替换处理,获取目标字符串,并在所述客户端显示所述目标字符串。
【技术特征摘要】
1.一种敏感词过滤方法,其特征在于,包括:获取客户端发送的原始字符串和场景应用类型;采用正则表达式匹配算法对所述原始字符串进行初步过滤,获取有效字符串;采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取待测字符串;采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词;对所述目标敏感词进行字符替换处理,获取目标字符串,并在所述客户端显示所述目标字符串。2.如权利要求1所述的敏感词过滤方法,其特征在于,在所述采用正则表达式匹配算法对所述原始字符串进行匹配,获取有效字符串的步骤之后,所述敏感词过滤方法还包括:获取所述原始字符串的长度和与所述场景应用类型相对应的预设长度;若所述原始字符串的长度大于所述预设长度,则执行所述采用与所述场景应用类型相对应的预设提取规则,对所述有效字符串进行提取,获取所述待测字符串的步骤;若所述原始字符串的长度不大于所述预设长度,则将所述有效字符串作为所述待测字符串。3.如权利要求1所述的敏感词过滤方法,其特征在于,所述待测字符串包括按照顺序标签存储的至少一个待测字符;所述采用改进多模式匹配算法对所述待测字符串进行敏感词检测,获取目标敏感词,包括:根据预先创建的敏感词库构建字母树,所述字母树包括成功指针、失败指针和根节点;基于所述字母树,按照所述待测字符串中的待测字符的顺序标签,依序对所述待测字符串中的所述待测字符进行敏感词检测;若第一顺序标签对应的第一待测字符在字母树中存在,则将所述第一待测字符作为当前节点,按照字母树中成功指针的路径,将所述成功指针指向下一个节点对应的特定字符;若所述特定字符和第二顺序标签对应的第二待测字符匹配,则将所述第二待测字符作为当前节点,继续执行所述按照字母树中成功指针的路径,将成功指针指向下一个成功节点对应的特定字符的步骤,直至所述失败指针指向所述根节点时,终止循环,获取目标终止节点,基于所述根节点和所述终止节点按照所述字母树中成功指针的路径进行遍历,获取目标敏感词;若所述特定字符和所述第二顺序标签对应的第二待测字符不匹配,则按照预设验证规则验证所述第一待测字符是否为敏感字符;若所述第一待测字符为敏感字符,则将所述特定字符对应的失败指针指向所述当前节点对应的所述第一待测字符,以保留所述第一待测字符,并继续执行所述基于所述字母树,按照所述待测字符串中的待测字符的顺序标签,依序对所述待测字符串中的所述待测字符进行敏感词检测的步骤;若所述第一待测字符为非敏感字符,则按照所述字母树中所述失败指针的指向,将所述失败指针指向失败字符节点,并继续执行所述基于所述字母树,按照所述待测字符串中的待测字符的顺序标签,依序对所述待测字符串中的所述待测字符进行敏感词检测的步骤,直至检测到所述待测字符串中的最后一个顺序标签对应的待测字符。4.如权利要求1所述的敏感词过滤方法,其特征在于,所述根据预先创建的敏感词库构建字母树,包括:根据所述预先创建的敏感词库按照公共前缀原则构建所述成功指针,获取成功树;所述成功树包括至少一个成功节点和一根节点;判断所述成功节点的父亲节点是否为根节点;若所述成功节点的父亲节点是所述根节点,则将所述成功节点的失败指针指向所述根节点;若所述成功节点的父亲节点不是所述根节点,则获取所述成功节点的父亲节点,基于所述成功节点的父亲节点对应的失败字符节点按照所述成功指针的路径,获取与所述失败字符节点对应的待匹配子节点,若所述待匹配子节点与所述成功节点匹配,则将所述成功节点的失败指针指向所述待匹配子节点;若所述待匹配子节点与所述成功节点不匹配,则将所述成功节点的父亲节点对应的失败字符节点作为当前字符节点,若所述当前字符节点的父亲节点不是所述根节点,则获取所述当前字符节点的父亲节点对应的失败字符节点的待匹配子节点;若所述待匹配子节点与所述成功节点匹配,则将所述...
【专利技术属性】
技术研发人员:张中楫,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。