一种敏感词匹配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28624373 阅读:30 留言:0更新日期:2021-05-28 16:20
本发明专利技术适用于计算机技术领域,具体是一种敏感词匹配方法、装置、计算机设备和存储介质,其中敏感词匹配方法包括:获取待检测的文本;确定当前检测字符;基于敏感词匹配树判断当前检测字符是否与敏感词关联,其中敏感词匹配树是预先通过至少一个敏感词或近似敏感词训练生成,近似敏感词是指敏感词中至少有一个字是被该字的拼音、拆分字或同源字所代替;输出所述预设的敏感词。本发明专利技术实施例提供一种敏感词匹配方法,由于预设的敏感词匹配树是预先通过至少一个近似敏感词训练生成,因此在使用敏感词匹配树对文本进行敏感词匹配的过程中能够有效地对变形的敏感词进行检测,提高了对变形敏感词的检测效果。

【技术实现步骤摘要】
一种敏感词匹配方法、装置、计算机设备和存储介质
本专利技术属于计算机
,尤其涉及一种敏感词匹配方法、装置、计算机设备和存储介质。
技术介绍
近年来,随着网络的不断发展,网络上的各种信息资源也迅速膨胀,其中很大一部分是以文本形式表示的。这些文本给人们传达有用信息的同时,也随之夹杂着一些垃圾信息。将这些无用的垃圾文本从文本信息中识别,成为当今互联网发展中一个急需解决的难题。现有技术通常是以两种方案实现垃圾文本的识别,其中之一是NLP(NaturalLanguageProcessing,自然语言处理),然而利用自然语言处理技术识别垃圾文本存在效率低、无法对中英文形式的文本进行识别的技术问题,另外一种则是正则表达式,然而利用正则表达式进行识别不够灵活,只能够指定一种具体的字符组合进行识别而无法指定一种类通用的字符组合进行识别。尤其是在当前的网络环境下,自然语言处理和正则表达式均无法对变形后的垃圾文本(例如将某一个字拼音代替或者将某一个字拆分)进行有效的处理。可见,现有的垃圾文本识别技术还存在着对变形的垃圾文本识别效果不好的技术问题本文档来自技高网...

【技术保护点】
1.一种敏感词匹配方法,其特征在于,所述敏感词匹配方法包括以下步骤:/n获取待检测的文本;/n按照预设的规则确定当前检测字符;/n基于预设的敏感词匹配树判断当前检测字符是否与预设的敏感词关联,所述预设的敏感词匹配树预先通过至少一个敏感词或近似敏感词训练生成,所述近似敏感词是指敏感词中至少有一个字是被所述字的拼音、拆分字或同源字所代替;/n当判断当前检测字符与预设的敏感词关联时,输出所述预设的敏感词。/n

【技术特征摘要】
1.一种敏感词匹配方法,其特征在于,所述敏感词匹配方法包括以下步骤:
获取待检测的文本;
按照预设的规则确定当前检测字符;
基于预设的敏感词匹配树判断当前检测字符是否与预设的敏感词关联,所述预设的敏感词匹配树预先通过至少一个敏感词或近似敏感词训练生成,所述近似敏感词是指敏感词中至少有一个字是被所述字的拼音、拆分字或同源字所代替;
当判断当前检测字符与预设的敏感词关联时,输出所述预设的敏感词。


2.根据权利要求1所述的敏感词匹配方法,其特征在于,所述敏感词匹配方法还包括:
当判断当前检测字符与预设的敏感词不关联时,返回至所述按照预设的规则确定当前检测字符的步骤。


3.根据权利要求1所述的敏感词匹配方法,其特征在于,所述基于预设的敏感词匹配树判断当前检测字符是否与预设的敏感词关联的步骤具体包括:
判断所述当前检测字符是否与预设的敏感词匹配树的根节点的子节点匹配;
当判断所述当前检测字符与预设的敏感词匹配树的根节点的子节点匹配时,将所述节点确定为当前节点;
判断所述当前节点是否与预设的敏感词关联;
当判断所述当前节点与预设的敏感词关联时,确定当前检测字符与预设的敏感词关联;
当判断所述当前节点与预设的敏感词不关联时,按照预设的规则获取下一字符,判断所述下一字符是否与所述当前节点的子节点匹配;
当判断所述下一字符与所述当前节点的子节点匹配时,将所述当前节点的子节点确定为当前节点,并返回至所述判断所述当前节点是否与预设的敏感词关联的步骤;
所述当判断当前检测字符与预设的敏感词关联时,输出所述预设的敏感词的步骤具体包括:
当确定当前检测字符与预设的敏感词关联时,输出所述预设的敏感词。


4.根据权利要求1所述的敏感词匹配方法,其特征在于,预先通过至少一个敏感词训练生成所述预设的敏感词匹配树的步骤包括:
构建初始化的敏感词匹配树,所述敏感词匹配树包括根节点;
获取至少一个敏感词;
按照预设的规则确定所述敏感词中的当前录入字符;
判断所述当前录入字符是否与当前节点的子节点匹配;
当判断当前录入字符与敏感词匹配树的根节点的子节点不匹配时,将所述当前录入字符确定为当前节点的子节点;
判断当前录入字符是否为所述敏感词的最后一个录入字符;
当判断当前录入字符不是所述敏感词的最后一个录入字符时,将当前录入字符对应的节点确定为当前节点,并返回至所述按照预设的规则确定当前录入字符的步骤;
当判断当前录入字符是所述敏感词的最后一个录入字符时,将所述当前节点的子节点与所述敏感词关联;
其中,当当前录入字符为所述敏感词的首个录入字符时,所述判断所述当前录入字符是否与当前节点的子节点匹配的步骤中当前节点为敏感词匹配树的根节点。


5.根据权利要求4所述的敏感词匹配方法,其特征在于,所述当判断当前录入字符不是所述敏感词的最后一个录入字符时,返回至所述按照预设的规则确定当前录入字符的步骤的步骤中,所述返回至所述按照预设的规则确定当前录入字符的步骤具体为:
判断所述当前录入字符是否有拼音;
当判断当前录入字符没有拼音时,返回至所述按照预设的规则确定所述敏感词中的当前录入字符的步骤;
当判断当前录入字符有拼音时,按照预设的规则确定所述拼音中的当前录入字母;
判断所述当前录入字母是否与所述当前节点的子节点的匹配;
当判断所述当前录入字母不与所述当前节点的子节点的匹配时,将所述当前录入字母确定为当前节点的子节点;
判断所述当前录入字母是否为所述当前录入字符的拼音的最后一个录入字母;
当判断所述当前录入字母不是所述当前录入字符的拼音的最后一个录入字母时,将所述当前录入字母确定为当前节点,并返回至所述按照预设的规则确定所述拼音中的当前录入字母的步骤;
当判断所述当前录入字母是所述当...

【专利技术属性】
技术研发人员:张生林
申请(专利权)人:上海鱼泡泡信息科技有限公司
类型:发明
国别省市:上海;31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1