System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及敏感词识别,尤其涉及一种变体敏感词识别方法、装置、电子设备及存储介质。
技术介绍
1、随着移动互联网的迅速发展,网络媒体工具已经成为人们生活中不可分割的一部分。而在通过互联网传播文字的过程中,经常会出现用户发布敏感文字的情况,因此,需要对用户发布的内容进行审核。
2、然而,在实际场景中,用户为了规避敏感词审核,往往会采用敏感词的变体来发布相关文字,而敏感词变体会让文字浏览者联系到相关的敏感词,使得敏感信息得以散布。
3、为了识别变体敏感词,现有技术通常通过扩充敏感词库来进行敏感词变体识别。例如,现有技术公开了一种敏感词检测规则的生成方法,具体包括:获取用于表征敏感词检测需求的至少一个目标敏感词;响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;针对每个目标敏感词,响应于用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成敏感词检测需求对应的敏感词检测规则。从而根据相应的敏感词检测规则来进行敏感词检测。
4、然而,该方式只能针对有实际意义的字词进行敏感词分析,而为了规避敏感词的审核,有些用户会将敏感词进行拆分,通过文字浏览者对于文字的联想能力实现对敏感词的传播。
技术实现思路
1、本专利技术提供了一种变体敏感词识别方法、装置、电子设备及存储
2、本专利技术提供了一种变体敏感词识别方法,包括:
3、获取待识别文本;
4、当按照语序检测到所述待识别文本中存在属于偏旁的第一字符时,检测所述第一字符后面的第二字符是否为偏旁;
5、若是,采用所述第一字符和所述第二字符生成子集;
6、在预设的偏旁部首树中检索所述子集,生成目标敏感字;
7、采用所述目标敏感字替换所述待识别文本中的所述第一字符和所述第二字符,生成变换文本;
8、检测所述变换文本中是否存在敏感词;
9、若是,将所述待识别文本中所述敏感词对应的文本确定为变体敏感词。
10、可选地,还包括:
11、若所述第二字符不为偏旁,则判断所述第一字符是否在预设敏感词词库中;
12、若是,则输出所述第一字符为目标敏感词;
13、若否,则判定所述待识别文本不含变体敏感词。
14、可选地,还包括:
15、获取敏感词词库;所述敏感词词库中包含多个敏感词;每个敏感词由若干个敏感字组成;
16、对所有所述敏感字进行拆解,得到若干个敏感字偏旁;
17、提取所述敏感字偏旁中的敏感字部首;
18、以所述敏感字部首为节点,所述敏感字部首以外的敏感字偏旁为所述节点的子节点,所述敏感字为所述子节点的叶子节点,生成所述偏旁部首树。
19、可选地,所述在预设的偏旁部首树中检索所述子集,生成目标敏感字的步骤,包括:
20、判断所述偏旁部首树中是否包含所述子集中的第一字符和第二字符;
21、若否,判定所述待识别文本中不存在变体敏感词;
22、若是,在所述偏旁部首树中查找包含有所述第一字符和所述第二字符的最大路径;
23、获取所述最大路径的叶子节点对应的敏感字,作为目标敏感字。
24、本专利技术还提供了一种变体敏感词识别装置,包括:
25、待识别文本获取模块,用于获取待识别文本;
26、偏旁检测模块,用于当按照语序检测到所述待识别文本中存在属于偏旁的第一字符时,检测所述第一字符后面的第二字符是否为偏旁;
27、子集生成模块,用于若是,采用所述第一字符和所述第二字符生成子集;
28、目标敏感字生成模块,用于在预设的偏旁部首树中检索所述子集,生成目标敏感字;
29、变换文本生成模块,用于采用所述目标敏感字替换所述待识别文本中的所述第一字符和所述第二字符,生成变换文本;
30、敏感词检测模块,用于检测所述变换文本中是否存在敏感词;
31、变体敏感词确定模块,用于若是,将所述待识别文本中所述敏感词对应的文本确定为变体敏感词。
32、可选地,还包括:
33、第一字符判断模块,用于若所述第二字符不为偏旁,则判断所述第一字符是否在预设敏感词词库中;
34、目标敏感词输出模块,用于若是,则输出所述第一字符为目标敏感词;
35、不含变体敏感词判定模块,用于若否,则判定所述待识别文本不含变体敏感词。
36、可选地,还包括:
37、敏感词词库获取模块,用于获取敏感词词库;所述敏感词词库中包含多个敏感词;每个敏感词由若干个敏感字组成;
38、拆解模块,用于对所有所述敏感字进行拆解,得到若干个敏感字偏旁;
39、敏感字部首提取模块,用于提取所述敏感字偏旁中的敏感字部首;
40、偏旁部首树生成模块,用于以所述敏感字部首为节点,所述敏感字部首以外的敏感字偏旁为所述节点的子节点,所述敏感字为所述子节点的叶子节点,生成所述偏旁部首树。
41、可选地,所述目标敏感字生成模块,包括:
42、第一字符和第二字符包含判断子模块,用于判断所述偏旁部首树中是否包含所述子集中的第一字符和第二字符;
43、变体敏感词判定子模块,用于若否,判定所述待识别文本中不存在变体敏感词;
44、最大路径查找子模块,用于若是,在所述偏旁部首树中查找包含有所述第一字符和所述第二字符的最大路径;
45、目标敏感字确定子模块,用于获取所述最大路径的叶子节点对应的敏感字,作为目标敏感字。
46、本专利技术还提供了一种电子设备,所述设备包括处理器以及存储器:
47、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
48、所述处理器用于根据所述程序代码中的指令执行如上任一项所述的变体敏感词识别方法。
49、本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的变体敏感词识别方法。
50、从以上技术方案可以看出,本专利技术具有以下优点:本专利技术公开了一种变体敏感词识别方法,包括:获取待识别文本;当按照语序检测到待识别文本中存在属于偏旁的第一字符时,检测第一字符后面的第二字符是否为偏旁;若是,采用第一字符和第二字符生成子集;在预设的偏旁部首树中检索子集,生成目标敏感字;采用目标敏感字替换待识别文本中的第一字符和第二字符,生成变换文本;检测变换文本中是否存在敏感词;若是,将待识别文本中敏感词对应的文本确定为变体敏感词。
51、本专利技术通过检测待识别文本中的偏本文档来自技高网...
【技术保护点】
1.一种变体敏感词识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1所述的方法,其特征在于,还包括:
4.根据权利要求1所述的方法,其特征在于,所述在预设的偏旁部首树中检索所述子集,生成目标敏感字的步骤,包括:
5.一种变体敏感词识别装置,其特征在于,包括:
6.根据权利要求5所述的装置,其特征在于,还包括:
7.根据权利要求5所述的装置,其特征在于,还包括:
8.根据权利要求5所述的装置,其特征在于,所述目标敏感字生成模块,包括:
9.一种电子设备,其特征在于,所述设备包括处理器以及存储器:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的变体敏感词识别方法。
【技术特征摘要】
1.一种变体敏感词识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,还包括:
3.根据权利要求1所述的方法,其特征在于,还包括:
4.根据权利要求1所述的方法,其特征在于,所述在预设的偏旁部首树中检索所述子集,生成目标敏感字的步骤,包括:
5.一种变体敏感词识别装置,其特征在于,包括:
6.根据权利要求5所述的装置,其特...
【专利技术属性】
技术研发人员:吴文亮,马金龙,邓其春,张政统,王伟喆,徐志坚,谢睿,陈光尧,
申请(专利权)人:广州趣研网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。