敏感词处理方法、装置及可读存储介质制造方法及图纸

技术编号:26171344 阅读:29 留言:0更新日期:2020-10-31 13:43
本申请实施例提供一种敏感词处理方法、装置及可读存储介质,该方法通过获取待识别文本,并根据预先建立的决策树对待识别文本进行敏感词识别,获得敏感词识别结果;其中,本申请实施例中的决策树是预先通过DFA算法以及敏感词库建立的,敏感词库是根据运营商数据库建立的。根据运营商数据建立的敏感词库与运营商想要过滤的敏感词的契合度较高,因此,能够有效提高敏感词识别结果的准确度;另外,本申请实施例中决策树能够自动对待识别文本进行识别,提高了敏感词识别的处理效率。

【技术实现步骤摘要】
敏感词处理方法、装置及可读存储介质
本申请涉及数据处理
,尤其涉及一种敏感词处理方法、装置及可读存储介质。
技术介绍
随着互联网技术的不断发展,人们可以通过互联网快速获取信息,与此同时,一些非法以及不良言论也可能出现在互联网信息中,因此,对于不法及不良言论的识别以及过滤对于互联网安全来说至关重要。现有技术中,通常通过建立敏感词库对互联网信息进行敏感词识别,并根据识别结果确定文本中是否存在敏感词。现有技术中的敏感词库中的敏感词通常是直接从互联网下载,这会导致敏感词库中的敏感词与运营商想要过滤的敏感词之间的契合度较低,则进一步会导致敏感词识别结果的准确度较低。
技术实现思路
本申请实施例提供一种敏感词处理方法、装置及可读存储介质,以提高敏感词识别结果的准确度。第一方面,本申请实施例提供一种敏感词处理方法,该方法包括:获取待识别文本;根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机DFA算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。...

【技术保护点】
1.一种敏感词处理方法,其特征在于,包括:/n获取待识别文本;/n根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机DFA算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。/n

【技术特征摘要】
1.一种敏感词处理方法,其特征在于,包括:
获取待识别文本;
根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机DFA算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集,所述第一敏感词子集中的敏感词与所述敏感词库中的至少一个其他敏感词子集中的敏感词的相似度满足预设要求。


3.根据权利要求2所述的方法,其特征在于,所述运营商数据库中的文本内容为结构化的文本内容。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
根据所述敏感词识别结果,过滤所述待识别文本中的敏感词,获得过滤后的文本。


5.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
根据所述第一敏感词子集对所述敏感词挖掘模型进行优化,获得优化后的敏感词挖掘模型。


6.一种敏感词处理装置,其特征在于,包括:
获...

【专利技术属性】
技术研发人员:牟海刚张煜于向丽
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1