System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及敏感词识别,尤其涉及一种变体敏感词识别方法、装置、电子设备及存储介质。
技术介绍
1、随着移动互联网的迅速发展,网络媒体工具已经成为人们生活中不可分割的一部分。而在通过互联网传播文字的过程中,经常会出现用户发布敏感文字的情况,因此,需要对用户发布的内容进行审核。
2、然而,在实际场景中,用户为了规避敏感词审核,往往会采用敏感词的变体来发布相关文字,而敏感词变体会让文字浏览者联系到相关的敏感词,使得敏感信息得以散布。
3、为了识别变体敏感词,现有技术通常通过扩充敏感词库来进行敏感词变体识别。例如,现有技术公开了一种敏感词检测规则的生成方法,具体包括:获取用于表征敏感词检测需求的至少一个目标敏感词;响应于用户对于预设敏感词扩展规则的选择操作,确定出至少一个目标敏感词扩展规则;针对每个目标敏感词,响应于用户对于与该目标敏感词具有关联关系的至少一个候选扩展敏感词集合的选择操作,以得到该目标敏感词对应的至少一个目标扩展敏感词集合;基于每个目标敏感词以及每个目标敏感词对应的至少一个目标扩展敏感词集合中的每个目标扩展敏感词,生成敏感词检测需求对应的敏感词检测规则。从而根据相应的敏感词检测规则来进行敏感词检测。
4、然而,该方式只能针对有实际意义的字词进行敏感词分析,而为了规避敏感词的审核,有些用户会将敏感词进行拆分,通过文字浏览者对于文字的联想能力实现对敏感词的传播。
技术实现思路
1、本专利技术提供了一种变体敏感词识别方法、装置、电子设备及存储
2、本专利技术提供了一种变体敏感词识别方法,包括:
3、获取待识别文本;
4、按照语序在所述待识别文本中检测属于预设部首数据集中的部首的第一字符;
5、根据所述第一字符生成最大部首片段;
6、扩展所述最大部首片段,得到完整检测片段;
7、对所述完整检测片段中的字符进行字组合,得到组合字片段;
8、采用所述组合字片段替换所述待识别文本中的完整检测片段,生成变换文本;
9、检测所述变换文本中是否存在敏感词;
10、若是,将所述待识别文本中所述敏感词对应的文本确定为变体敏感词。
11、可选地,所述根据所述第一字符生成最大部首片段的步骤,包括:
12、以所述第一字符为起点字符,判断所述起点字符后面连续三个字符中是否存在属于预设部首数据集中的部首的第二字符;
13、若是,以所述第二字符为起点字符,并返回判断所述起点字符后面连续三个字符中是否存在属于预设部首数据集中的部首的第二字符的步骤;
14、若否,将所述起点字符为结束字符,采用所述第一字符、所述结束字符、所述第一字符与所述结束字符中间的字符生成最大部首片段。
15、可选地,所述扩展所述最大部首片段,得到完整检测片段的步骤,包括:
16、获取所述最大部首片段前后相邻的第三字符和第四字符;
17、采用所述第三字符、所述最大步骤片段、所述第四字符生成完整检测片段。
18、可选地,所述对所述完整检测片段中的字符进行字组合,得到组合字片段的步骤,包括:
19、获取所述完整检测片段中的部首字符;
20、依次将每个所述部首字符作为基准字符;
21、按照语序将所述基准字符与后一个字符进行组合,得到后组合结果;
22、判断所述后组合结果是否为字词;
23、若是,将所述后组合结果作为组合字;
24、若否,按照语序将所述基准字符与前一个字符进行组合,得到前组合结果;
25、判断所述前组合结果是否为字词;
26、若是,将所述前组合结果作为组合字;
27、若否,将所述基准字符作为独立字;
28、采用所述独立字和所述组合字调整所述完整检测片段,生成组合字片段。
29、可选地,所述采用所述独立字和所述组合字调整所述完整检测片段,生成组合字片段的步骤,包括:
30、采用所述独立字和所述组合字替换所述完整检测片段中对应的字符,生成若干调整片段;
31、计算各调整片段的流畅度;
32、将流畅度最高的调整片段确定为组合字片段。
33、本专利技术还提供了一种变体敏感词识别装置,包括:
34、待识别文本获取模块,用于获取待识别文本;
35、第一字符检测模块,用于按照语序在所述待识别文本中检测属于预设部首数据集中的部首的第一字符;
36、最大部首片段生成模块,用于根据所述第一字符生成最大部首片段;
37、完整检测片段扩展模块,用于扩展所述最大部首片段,得到完整检测片段;
38、组合模块,用于对所述完整检测片段中的字符进行字组合,得到组合字片段;
39、变换文本生成模块,用于采用所述组合字片段替换所述待识别文本中的完整检测片段,生成变换文本;
40、敏感词检测模块,用于检测所述变换文本中是否存在敏感词;
41、变体敏感词确定模块,用于若是,将所述待识别文本中所述敏感词对应的文本确定为变体敏感词。
42、可选地,所述最大部首片段生成模块,包括:
43、第二字符判断子模块,用于以所述第一字符为起点字符,判断所述起点字符后面连续三个字符中是否存在属于预设部首数据集中的部首的第二字符;
44、返回子模块,用于若是,以所述第二字符为起点字符,并返回判断所述起点字符后面连续三个字符中是否存在属于预设部首数据集中的部首的第二字符的步骤;
45、最大部首片段生成子模块,用于若否,将所述起点字符为结束字符,采用所述第一字符、所述结束字符、所述第一字符与所述结束字符中间的字符生成最大部首片段。
46、可选地,所述完整检测片段扩展模块,包括:
47、第三字符和第四字符获取子模块,用于获取所述最大部首片段前后相邻的第三字符和第四字符;
48、完整检测片段生成子模块,用于采用所述第三字符、所述最大步骤片段、所述第四字符生成完整检测片段。
49、本专利技术还提供了一种电子设备,所述设备包括处理器以及存储器:
50、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
51、所述处理器用于根据所述程序代码中的指令执行如上任一项所述的变体敏感词识别方法。
52、本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的变体敏感词识别方法。
53、从以上技术方案可以看出,本专利技术具有以下优点:本专利技术公开了一种变体敏感词识别方法,具体包括:获取待识别文本;按照语序在待识别文本中检测属于预设部首数据集中的部首的第一字符;根据第一字符生成最大部首片段;扩展最大部首本文档来自技高网...
【技术保护点】
1.一种变体敏感词识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一字符生成最大部首片段的步骤,包括:
3.根据权利要求1所述的方法,其特征在于,所述扩展所述最大部首片段,得到完整检测片段的步骤,包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述完整检测片段中的字符进行字组合,得到组合字片段的步骤,包括:
5.根据权利要求4所述的方法,其特征在于,所述采用所述独立字和所述组合字调整所述完整检测片段,生成组合字片段的步骤,包括:
6.一种变体敏感词识别装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,所述最大部首片段生成模块,包括:
8.根据权利要求6所述的装置,其特征在于,所述完整检测片段扩展模块,包括:
9.一种电子设备,其特征在于,所述设备包括处理器以及存储器:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-5任一项所述的变体敏感词识别方
...【技术特征摘要】
1.一种变体敏感词识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一字符生成最大部首片段的步骤,包括:
3.根据权利要求1所述的方法,其特征在于,所述扩展所述最大部首片段,得到完整检测片段的步骤,包括:
4.根据权利要求1所述的方法,其特征在于,所述对所述完整检测片段中的字符进行字组合,得到组合字片段的步骤,包括:
5.根据权利要求4所述的方法,其特征在于,所述采用所述独立字和所述组合字调整所述完整检测片段,生...
【专利技术属性】
技术研发人员:吴文亮,马金龙,邓其春,张政统,王伟喆,徐志坚,谢睿,陈光尧,
申请(专利权)人:广州趣研网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。