敏感词识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34030794 阅读:21 留言:0更新日期:2022-07-06 11:04
本公开提供了一种敏感词识别方法、装置、电子设备及存储介质,其中,敏感词识别方法包括:从预设编码库中分别获取待识别词对应的第一字符串和敏感样本词对应的第二字符串;对第一字符串和第二字符串分别进行预处理,得到待识别词的第一字符向量和敏感样本词的第二字符向量;计算第一字符向量和第二字符向量的余弦相似度;根据计算结果,确定待识别词是否为敏感词。本公开通过获取与待识别词和敏感样本词有映射关系的第一字符串和第二字符串,对第一字符串和第二字符串向量化处理,计算第一字符向量和第二字符向量的余弦相似度,根据得到的余弦相似度确定待识别词是否为敏感词,提高了敏感词识别的准确率和效率。了敏感词识别的准确率和效率。了敏感词识别的准确率和效率。

Sensitive word recognition method, device, electronic equipment and storage medium

【技术实现步骤摘要】
敏感词识别方法、装置、电子设备及存储介质


[0001]本公开涉及网络信息识别
,尤其涉及一种敏感词识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着通信网络的发展,人们可以自由的在网络上发表言论,随之也出现的一些恶意用户发表的不良信息。为了躲避网络平台的审查,恶意用户发布不良信息的手段变得多样、形式也变得复杂,如使用拆分字或形近字表示对应的敏感词,这种发布不良信息的方式不但增加了网络平台对敏感词过滤的难度,甚至会造成不良信息的泄露或需要人工进行二次复检。
[0003]现有技术通常采用区位编码和KMP算法(由D.E.Knuth,J.H.Morris 和V.R.Pratt提出的一种改进的字符串匹配算法)来解决汉字拆分体问题,该方法需对敏感词进行拆分、穷举组合,增加了预处理的复杂度,该方法对包含正常字体的拆分字组合无法进行精确匹配,抗干扰能力较弱。
[0004]基于此,如何提高敏感词识别的准确率和效率成为了亟需解决的技术问题。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种敏感词识别方法,其特征在于,包括:从预设编码库中分别获取待识别词对应的第一字符串和敏感样本词对应的第二字符串,其中,所述预设编码库中存储有具有映射关系的多个词与字符串;对所述第一字符串和所述第二字符串分别进行预处理,得到所述待识别词的第一字符向量和所述敏感样本词的第二字符向量;计算所述第一字符向量和所述第二字符向量的余弦相似度;根据计算结果,确定所述待识别词是否为敏感词。2.根据权利要求1所述的敏感词识别方法,其特征在于,对所述第一字符串和所述第二字符串进行预处理,得到所述待识别词的第一字符向量和所述敏感样本词的第二字符向量,包括:对所述第一字符串和所述第二字符串进行合并与去重处理,得到特征字符串;利用所述特征字符串对所述第一字符串和第二字符串进行向量化处理,得到所述待识别词的第一字符向量和所述敏感样本词的第二字符向量。3.根据权利要求2所述的敏感词识别方法,其特征在于,利用所述特征字符串对所述第一字符串和第二字符串进行向量化处理,得到所述待识别词的第一字符向量和所述敏感样本词的第二字符向量,包括:利用所述特征字符串中的每个字符在所述第一字符串进行遍历查找,若在所述第一字符串查找到所述特征字符串中的字符,记为1,否则记为0,得到所述待识别词的第一字符向量;利用所述特征字符串中的每个字符在所述第二字符串进行遍历查找,若在所述第二字符串查找到所述特征字符串中的字符,记为1,否则记为0,得到所述敏感样本词的第二字符向量。4.根据权利要求1所述的敏感词识别方法,其特征在于,在从预设编码库中分别获取待识别词对应的第一字符串和敏感样本词对应的第二字符串之前,所述方法还包括:根据所述待识别词,从所述预设编码库中获取所述待识别词对应的敏感样本词,其中,所述预设编码库还存储有多个具有映射关系的敏感词和敏感词的变形词,所述待识别词属于敏感词的变形词,敏感词的变形词为与敏感词形近或对敏感...

【专利技术属性】
技术研发人员:马兆铭王铮任华杨迪汪少敏
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1