一种敏感文本识别方法、系统、电子设备及存储介质技术方案

技术编号:30768886 阅读:36 留言:0更新日期:2021-11-10 12:34
本发明专利技术提出一种敏感文本识别方法、系统、电子设备及存储介质,其方法技术方案包括多叉树文本扩展步骤,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;DFA文本扩展步骤,通过DFA技术对含有无效字符的所述敏感文本进行扩展;文本分类扩展步骤,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;融合文本识别步骤,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。本申请解决了现有敏感文本识别方法误杀率高、效果不理想的问题。效果不理想的问题。效果不理想的问题。

【技术实现步骤摘要】
一种敏感文本识别方法、系统、电子设备及存储介质


[0001]本专利技术属于文本识别
,尤其涉及一种敏感文本识别方法、系统、电子设备及存储介质。

技术介绍

[0002]在网络世界中,存在着各类辱骂、黄色等敏感文本,这类文本会给其他用户带来非常不好的体验,而有的人为了逃避识别,将文本稍加改变,以逃过识别。因此,敏感的识别对净化网络环境有重要意义。

技术实现思路

[0003]本申请实施例提供了一种敏感文本识别方法、系统、电子设备及存储介质,以至少解决现有敏感文本识别方法误杀率高、效果不理想的问题。
[0004]第一方面,本申请实施例提供了一种敏感文本识别方法,包括:多叉树文本扩展步骤,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;DFA文本扩展步骤,通过DFA技术对含有无效字符的所述敏感文本进行扩展;文本分类扩展步骤,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;融合文本识别步骤,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。
[0005]优选的,所述文本分类扩展步骤进一步包括:通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
[0006]优选的,所述文本分类扩展步骤进一步包括:对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。
[0007]优选的,所述融合文本识别步骤进一步包括:若所述敏感文本的字数小于一阈值,则通过所述多叉树和所述DFA进行识别,反之则通过所述文本分类算法进行识别。
[0008]第二方面,本申请实施例提供了一种敏感文本识别系统,适用于上述一种敏感文本识别方法,包括:多叉树文本扩展模块,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;DFA文本扩展模块,通过DFA技术对含有无效字符的所述敏感文本进行扩展;文本分类扩展模块,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;融合文本识别模块,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。
[0009]在其中一些实施例中,所述文本分类扩展模块进一步包括:通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
[0010]在其中一些实施例中,所述文本分类扩展模块进一步包括:对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。
等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0025]在网络环境中,不可控人的行为,有的人可能会发布辱骂、反动、色情、暴恐等信息,这些文本污染网络环境。这类的文本需要被识别出来、并剔除。而有的人为了逃避识别,将文本稍加改变,逃过“抓捕”。
[0026]例如:
[0027]将“我在吃饭”[0028]改变成:
[0029]“我zc饭”。
[0030]上述是将文字的首拼音作为变体,还有偏旁变体的,例如:
[0031]“我zc饣反”。
[0032]这种变体在网络中随处可见,还有在文字中增加一些无效字符,以防止被识别出来的,例如:
[0033]“我在&&&吃&$&*

||

饭”。
[0034]以及上述变体的结合等。
[0035]以下,结合附图详细介绍本专利技术的实施例:
[0036]图1为本专利技术的敏感文本识别方法流程图,请参见图1,本专利技术敏感文本识别方法包括如下步骤:
[0037]S1:对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展。
[0038]在具体实施中,对敏感词汇中的每个字做如下处理
[0039]拆字,比如将“饭”拆成“饣反”[0040]拆拼音的首部,比如将“饭”拆成“f”[0041]拆拼音的全拼,比如将“饭”拆成“fan”[0042]拆拼音的全拼带声调,比如将“饭”拆成“f
à
n”[0043]在具体实施中,每个字都有5种可能,对于长度为N的词,其变体有5
N
种可能,本申请实施例用多叉树的方式解决这个构建+遍历的问题。
[0044]在具体实施中,首先递归构建一多叉树,本申请提供一伪代码对构建树算法进行说明:
[0045]输入:根节点(记为root),扩展后数组(二维数组,每一维度是每个词的不同的扩展结果,记为lists),深度(初始传入为0,记为depth)
[0046]输出:一颗多叉树
[0047]如果深度等于原文长度则退出;返回空
[0048]for lst in lists:
[0049]nodes.append(tree(lst[depth]))
[0050]root.set_children(nodes)
[0051]for child in root.children:
[0052]create_tree(child,lists,depth+1)
[0053]在具体实施中,再遍历该多叉树,采用深度优先遍历的方式,如果是叶子,就找到一条正确的路径。
[0054](1)访问顶点v;visited[v]=1;//算法执行前visited[n]=0
[0055](2)w=顶点v的第一个邻接点;
[0056](3)while(w存在)
[0057]if(w未被访问)
[0058]从顶点w出发递归执行该算法;
[0059]If w是叶子:
[0060]找到一条路径。
[0061]w=顶点v的下一个邻接点
[0062]S2:通过DFA技术对含有无效字符的所述敏感文本进行扩展。
[0063]在具体实施中,DFA主要思想是在敏感词中做扩展,其思想是对无效字符空跳,从而解决字符中穿插无效字符的问题,通过确定有穷自动机(DFA)识别带有无效字符的敏感文本。
[0064]S3:收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展。
[0065]可选的,通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。
[0066]可选的,对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感文本识别方法,其特征在于,包括:多叉树文本扩展步骤,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;DFA文本扩展步骤,通过DFA技术对含有无效字符的所述敏感文本进行扩展;文本分类扩展步骤,收集所述敏感文本作为正样本,并收集非敏感文本作为负样本,根据所述正样本和所述负样本通过一文本分类算法进行所述敏感文本的扩展;融合文本识别步骤,对所述敏感文本,根据所述敏感文本的字数,通过所述多叉树、所述DFA和所述文本分类算法进行识别。2.根据权利要求1所述的敏感文本识别方法,其特征在于,所述文本分类扩展步骤进一步包括:通过对所述敏感文本中的字进行所述预扩展以扩充所述正样本。3.根据权利要求2所述的敏感文本识别方法,其特征在于,所述文本分类扩展步骤进一步包括:对所述负样本进行随机切分,将得到的切分块与所述正样本通过二分类进行文本分类。4.根据权利要求1所述的敏感文本识别方法,其特征在于,所述融合文本识别步骤进一步包括:若所述敏感文本的字数小于一阈值,则通过所述多叉树和所述DFA进行识别,反之则通过所述文本分类算法进行识别。5.一种敏感文本识别系统,其特征在于,包括:多叉树文本扩展模块,对敏感文本中的字进行一预扩展,并通过多叉树根据所述预扩展的结果进行所述敏感文本的扩展;DFA文本扩展模块...

【专利技术属性】
技术研发人员:方依
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1