基于HTrie树的中文敏感词变形体识别方法及系统技术方案

技术编号:38469713 阅读:15 留言:0更新日期:2023-08-11 14:46
本发明专利技术涉及一种基于HTrie树的中文敏感词变形体识别方法及系统,其方法包括:步骤S1:获取网络的敏感词数据集,对敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;步骤S2:根据扩充的敏感词数据集构建HTrie树;步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本;步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对标准化的目标文本进行识别,将识别结果与扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词。本发明专利技术提供的方法可提高敏感词识别的查全率和查准率。查准率。查准率。

【技术实现步骤摘要】
基于HTrie树的中文敏感词变形体识别方法及系统


[0001]本专利技术涉及网络安全和信息安全领域,具体涉及一种基于HTrie树的中文敏感词变形体识别方法及系统。

技术介绍

[0002]如今,互联网的各大社交平台用户数量激增,平台内容更新不断,用户随时随地发布的文本信息可能涉及政治、军事、娱乐、经济、道德等多个领域,越来越多的信息夹杂各种涉嫌各种不良信息,而这些信息的共同点是包含大量敏感词。一般情况下,网络不良信息使用的是准确无误的中文汉字,没有任何变形处理,这样只需简单的字符串匹配方法就能解决。除此以外考虑结合文本内容进行分析,如敏感词的过滤识别技术包括基于内容的单模式匹配如BF算法、RK算法、Sunday算法、BM算法、Horspool算法和典型的KMP算法等,或多模式匹配如Wu

Manber算法、Trie树以及Aho 和 Corasick提出的Aho

Corasick算法等,或使用文本分类技术对文本中的敏感信息进行识别和过滤等,这类研究很好的解决了识别文本内容包含敏感信息的问题,但不能实现隐蔽敏感词的发现。
[0003]为避免以往简单的基于敏感词表等方法的识别和过滤,网络上出现越来越多的敏感词变形体以干扰识别系统的监测,而现有的算法如ST

DFA算法和SWDT

IFA算法等几乎难以识别多种变形敏感词或识别效率不高,这给社交平台过滤识别敏感信息带来巨大的难题,更影响着越来越多的网络用户尤其是未成年用户。
[0004]Trie树又称前缀树或单词查找树,是哈希树的变种但效率高于哈希树,利用其字符串的公共前缀来减少查询时间,尽可能减少不必要的字符串比较。前缀搜索的优点在于查询速度快且可以查询以某一字符串为起始的所有结果而非完全匹配结果,因此,相对于其他的模式匹配算法,Trie树用于识别敏感词变形体的效果更好。
[0005]综上所述,当前传统的敏感词识别算法无法处理变形体,而现有中文敏感词识别算法可处理的敏感词变形体类型有限且识别准确率不高。因此,如何提高敏感词识别的准确率成为一个亟待解决的问题。

技术实现思路

[0006]为了解决上述技术问题,本专利技术提供一种基于HTrie树的中文敏感词变形体识别方法及系统。
[0007]本专利技术技术解决方案为:一种基于HTrie树的中文敏感词变形体识别方法,包括:步骤S1:获取网络的敏感词数据集,对所述敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;步骤S2:根据所述扩充的敏感词数据集构建HTrie树;步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本;步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对所述标准化的目标文本进行识别,将识别结果与所述扩充的敏感词数据集进行相似度计算,将大于预设阈值的
词识别为敏感词。
[0008]本专利技术与现有技术相比,具有以下优点:1、本专利技术公开了一种基于HTrie树的中文敏感词变形体识别方法,构建扩充敏感词数据集,增加了可处理敏感词变形体的类型数量,从而解决了现有方法文敏感词识别算法存在可处理的敏感词变形体类型有限和识别准确率不高的问题,以及网络信息严重人工干扰问题。
[0009]2、本专利技术构建HTrie树用于存储敏感词的中文、英文和拼音形式,并在识别近音字等隐蔽词汇时将结果与数据集进行验证计算,添加了相似度比对,提高了识别敏感词的查全率和查准率,其中查全率的提升尤为显著。
附图说明
[0010]图1为本专利技术实施例中一种基于HTrie树的中文敏感词变形体识别方法的流程图;图2为本专利技术实施例中HTrie树示意图;图3为本专利技术实施例中双指针长度对识别敏感词文本数、词数、运行时间的影响示意图;图4为本专利技术实施例中基于HTrie树的中文敏感词变形体识别算法流程图;图5为本专利技术实施例中一种基于HTrie树的中文敏感词变形体识别系统的结构框图。
具体实施方式
[0011]本专利技术提供了一种基于HTrie树的中文敏感词变形体识别方法,可提高敏感词识别的查全率和查准率。
[0012]为了使本专利技术的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本专利技术进一步详细说明。
[0013]实施例一如图1所示,本专利技术实施例提供的一种基于HTrie树的中文敏感词变形体识别方法,包括下述步骤:步骤S1:获取网络的敏感词数据集,对敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;步骤S2:根据扩充的敏感词数据集构建HTrie树;步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本;步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对标准化的目标文本进行识别,将识别结果与扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词。
[0014]在一个实施例中,上述步骤S1:获取网络的敏感词数据集,对敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集,具体包括:步骤S11:对采集的敏感词数据集进行去重、清洗和排序的预处理;从网络获取并整合多领域敏感词数据,对其进行去重、排序和清洗,得到敏感词数据集
步骤S12:将敏感词数据集中的敏感词设为普通式敏感词;构建普通式敏感词对应的繁体式敏感词、拼音式敏感词、英文式敏感词和汉字拆解式敏感词,从而形成扩充敏感词数据集。
[0015]举例来说,如表1所示,假设隐形耳机为敏感词,将隐形耳机的简体字作为普通式敏感词,并作为扩充敏感词数据集的关键字,是敏感词数据集的唯一标识,不可为空,起到识别和验证敏感词的重要作用。将隐形耳机进行繁体化,并作为繁体式敏感词进行存储。构建将隐形耳机的拼音式敏感词,包括:拼音式(即保存每个字的拼音的全拼)和拼音简称式(即只保存每个字的拼音首字母),其中,拼音式包括带声调标注的和不带声调标注两种形式。拼音式敏感词不包含空格。英文式敏感词是将普通式敏感词翻译为英文进行保存,如果该敏感词有对应的专有英文简称,则保存该英文简称,如“证监会”保存为“csrc”。汉字拆解式敏感词是将敏感词的每个字可能的拆解结果放在单独一列中,多个结果的用空格分开。
[0016]表1 扩充敏感词存储结构,此外,本专利技术实施例还会保存普通式敏感词的各种变体形式,如表2所示:表2 敏感词变形体形式及示例,在一个实施例中,上述步骤S2:根据扩充的敏感词数据集构建HTrie树,具体包括:根据扩充敏感词数据集构建HTrie树,HTrie树根节点不包含字符,其子节点及叶节点均只包含一个字符。
[0017]如图2所示,为基于扩充敏感词数据集构建的HTrie树。本专利技术实施例基于Trie进行改进,构建HTrie树,用于存储扩充敏感词数据集,HTrie树构建算法的伪代码如下所示:
,本专利技术实施例的HTrie树同时包含中文和英文等内容,但仍然保留Trie树的根节点不包含字符而其他节点包含一个字符和其利用字符串的公共前缀建立分支的特点,并且为每个叶节点保存从根节点到达该叶节点所经过路径的所有字符组成的字符串,以增强前本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于HTrie树的中文敏感词变形体识别方法,其特征在于,包括:步骤S1:获取网络的敏感词数据集,对所述敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集;步骤S2:根据所述扩充的敏感词数据集构建HTrie树;步骤S3:对待识别的目标文本进行预处理,得到标准化的目标文本;步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对所述标准化的目标文本进行识别,将识别结果与所述扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词。2.根据权利要求1所述的基于HTrie树的中文敏感词变形体识别方法,其特征在于,所述步骤S1:获取网络的敏感词数据集,对所述敏感词数据集进行预处理以及扩充,构建扩充敏感词数据集,具体包括:步骤S11:对采集的所述敏感词数据集进行去重、清洗和排序的预处理;步骤S12:将所述敏感词数据集中的敏感词设为普通式敏感词;构建所述普通式敏感词对应的繁体式敏感词、拼音式敏感词、英文式敏感词和汉字拆解式敏感词,从而形成扩充敏感词数据集。3.根据权利要求2所述的基于HTrie树的中文敏感词变形体识别方法,其特征在于,所述步骤S2:根据所述扩充的敏感词数据集构建HTrie树,具体包括:根据所述扩充敏感词数据集构建HTrie树,所述HTrie树根节点不包含字符,其子节点及叶节点均只包含一个字符。4.根据权利要求3所述的基于HTrie树的中文敏感词变形体识别方法,其特征在于,所述步骤S4:使用基于HTrie树的中文敏感词变形体识别算法对所述标准化的目标文本进行识别,将识别结果与所述扩充的敏感词数据集进行相似度计算,将大于预设阈值的词识别为敏感词,具体包括:步骤S41:对所述标准化的目标文本使用双指针机制依次获取其部分待检测字符串,即第一个指针指向第一个字符,第二个指针遍历第一个指针后n个字符,其中,n为预设的长度;步骤S42:将所述待检测字符串和HTrie树,使用基于HTrie树的中文敏感词变形体识别算法进行识别匹配,如果匹配成功,则所述第一个指针直接指向匹配成功的字符串后一位,重复步骤S42;步骤S43:如果匹配不成功,所述第一个指针和第二个指针均向后移1位,重复步骤S42。5.根据权利要求4所述的基于HTrie树的中文敏感词变形体识别方法,其特征在于,所述步骤S42中所述基于HTrie树的中文敏感词变形体识别算法,具体包括:步骤S421...

【专利技术属性】
技术研发人员:张克君金禹含王文彬王钧邹兵
申请(专利权)人:北京电子科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1