System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种敏感词过滤方法、装置、设备及计算机可读存储介质制造方法及图纸_技高网

一种敏感词过滤方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:41297324 阅读:2 留言:0更新日期:2024-05-13 14:46
本发明专利技术公开了一种敏感词过滤方法、装置、设备及计算机可读存储介质,应用于数据处理技术领域,包括:获取树形结构敏感词库;将切面敏感词过滤业务逻辑配置在多个目标接口处;切面敏感词过滤逻辑是基于面向切面技术设计的逻辑;接收待校验文本,基于树形结构敏感词库利用接口处的切面敏感词过滤业务逻辑对待校验文本进行校验过滤。本申请将敏感词集合以树形结构进行存储,使得关键词匹配时的效率要远高于遍历匹配。同时基于面向切面技术将切面敏感词过滤业务逻辑配置在多个目标接口处,使得切面敏感词过滤业务逻辑与其他代码之间的耦合度降低,提高程序的可重用性,提高了开发的效率,极大地提升了常规业务系统在敏感词过滤方面的开发和执行效率。

【技术实现步骤摘要】

本专利技术涉及数据处理,特别涉及一种敏感词过滤方法、装置、设备及计算机可读存储介质


技术介绍

1、随着互联网时代的兴起,各种各样的toc业务系统(面向个人业务)越来越多。网民可以在互联网上发布信息、发表言论、自由交易等等。而与此同时,为了共同维护和营造和谐的互联网环境,对于用户自由发布的一些信息,就必须进行有效的甄别。对于软件从业人员而言,较为普遍的甄别手段就是通过比对敏感词库,来判断用户发布的信息是否合法,由于现有的过滤方法对原业务代码的侵入性较高,使得代码维护困难,无法适用于所有的接口,而敏感词库往往都是几十万的一个量级,如果对每一条敏感词进行甄别的话,程序执行效率会变得无比低下,如何进行高效的敏感词校验成为很多业务系统中的重中之重。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种敏感词过滤方法、装置、设备及计算机可读存储介质,解决了现有技术中敏感词校验效率低的技术问题。

2、为解决上述技术问题,本专利技术提供了一种敏感词过滤方法,包括:

3、获取树形结构敏感词库;

4、将切面敏感词过滤业务逻辑配置在多个目标接口处;其中,所述切面敏感词过滤逻辑是基于面向切面技术设计的逻辑;

5、接收待校验文本,基于所述树形结构敏感词库利用接口处的所述切面敏感词过滤业务逻辑对所述待校验文本进行校验过滤。

6、可选的,所述获取树形结构敏感词库,包括:

7、获取所有的敏感词库;

8、遍历所述所有的敏感词库中的敏感词,并判断每一个字符是否已经存储在敏感词容器中;

9、如果所述敏感词容器中已存在当前字符,则不进行操作;

10、如果所述敏感词容器中不存在所述当前字符,则基于所述当前字符构造敏感词列表;

11、确定所述当前字符对应所述敏感词列表中的最后一个字符时,配置结束标志;

12、循环以上操作直至所述所有的敏感词库中的字符遍历完成,形成包括所述树形结构敏感词库的敏感词容器。

13、可选的,所述切面敏感词过滤业务逻辑,包括:

14、对需校验文本整体进行遍历操作;

15、针对当前遍历的字符,从树形结构敏感词库中查询是否存在目标结果;

16、如果存在,则针对下一个字符,从上述目标结果对应的结构中进行查询;

17、循环以上操作直至确定所述目标结果的结束标志位;

18、如果存在敏感词,且上述遍历的字符个数大于敏感词过滤最低字数,则对该校验文本进行过滤。

19、可选的,基于面向切面技术设计所述切面敏感词过滤业务逻辑,包括:

20、基于spring框架机制构造切面,确定敏感词校验切点;其中,所述敏感词校验切点为所有使用该敏感词校验切点的业务;

21、编译与所述敏感词校验切点对应的所述切面敏感词过滤业务逻辑;

22、将所述切面敏感词过滤业务逻辑设置在切面前或切面后。

23、可选的,所述基于所述树形结构敏感词库利用接口处的所述切面敏感词过滤业务逻辑对所述待校验文本进行校验过滤,包括:

24、基于确定有穷自动机算法和所述切面敏感词过滤业务逻辑确定所述待校验文本是否存在于所述树形结构敏感词库中;

25、当存在于所述树形结构敏感词库中时,对所述待校验文本进行过滤,并发送异常信息。

26、可选的,所述获取树形结构敏感词库,包括:

27、将敏感词库中的字符转换成宽字符串,并通过哈希散列压缩映射后,转换成基于确定的有穷自动机算法的所述树形结构敏感词库。

28、本申请还提供了一种敏感词过滤装置,包括:

29、树形结构敏感词库获取模块,用于获取树形结构敏感词库;

30、过滤逻辑配置模块,用于将切面敏感词过滤业务逻辑配置在多个目标接口处;其中,所述切面敏感词过滤逻辑是基于面向切面技术设计的逻辑;

31、过滤模块,用于接收待校验文本,基于所述树形结构敏感词库利用接口处的所述切面敏感词过滤业务逻辑对所述待校验文本进行校验过滤。

32、可选的,所述树形结构敏感词库获取模块,包括:

33、敏感词库获取单元,用于获取所有的敏感词库;

34、遍历单元,用于遍历所述所有的敏感词库中的敏感词,并判断每一个字符是否已经存储在敏感词容器中;

35、第一处理单元,用于如果所述敏感词容器中已存在当前字符,则不进行操作;

36、第二处理单元,用于如果所述敏感词容器中不存在所述当前字符,则基于所述当前字符构造敏感词列表;

37、第三处理单元,用于确定所述当前字符对应所述敏感词列表中的最后一个字符时,配置结束标志;

38、树形结构敏感词库生成单元,用于循环以上操作直至所述所有的敏感词库中的字符遍历完成,形成包括所述树形结构敏感词库的敏感词容器。

39、本申请还提供了一种敏感词过滤设备,包括:

40、存储器,用于存储计算机程序;

41、处理器,用于执行所述计算机程序时实现如上述的敏感词过滤方法的步骤。

42、本申请还提供了一种计算机可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上述的敏感词过滤方法的步骤。

43、可见,本专利技术通过获取树形结构敏感词库;将切面敏感词过滤业务逻辑配置在多个目标接口处;其中,切面敏感词过滤逻辑是基于面向切面技术设计的逻辑;接收待校验文本,基于树形结构敏感词库利用接口处的切面敏感词过滤业务逻辑对待校验文本进行校验过滤。本专利技术和当前直接基于待校验文本遍历敏感词库,单纯的循环遍历校验使得过滤效率较低相比,本申请将敏感词集合以树形结构进行存储,使得关键词匹配时的效率要远高于循环匹配。同时基于面向切面的思想将切面敏感词过滤业务逻辑配置在多个目标接口处,从而使得切面敏感词过滤业务逻辑与其他部分之间的耦合度降低,提高程序的可重用性,同时提高了开发的效率,极大地提升了常规业务系统在敏感词过滤方面的开发和执行效率。

44、此外,本专利技术还提供了一种敏感词过滤方法、装置、设备及计算机可读存储介质,同样具有上述有益效果。

本文档来自技高网...

【技术保护点】

1.一种敏感词过滤方法,其特征在于,包括:

2.根据权利要求1所述的敏感词过滤方法,其特征在于,所述获取树形结构敏感词库,包括:

3.根据权利要求1所述的敏感词过滤方法,其特征在于,所述切面敏感词过滤业务逻辑,包括:

4.根据权利要求1至3任一项所述的敏感词过滤方法,其特征在于,基于面向切面技术设计所述切面敏感词过滤业务逻辑,包括:

5.根据权利要求1所述的敏感词过滤方法,其特征在于,所述基于所述树形结构敏感词库利用接口处的所述切面敏感词过滤业务逻辑对所述待校验文本进行校验过滤,包括:

6.根据权利要求1所述的敏感词过滤方法,其特征在于,所述获取树形结构敏感词库,包括:

7.一种敏感词过滤装置,其特征在于,包括:

8.根据权利要求7所述的敏感词过滤方法,其特征在于,所述树形结构敏感词库获取模块,包括:

9.一种敏感词过滤设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至6任一项所述的敏感词过滤方法的步骤。

...

【技术特征摘要】

1.一种敏感词过滤方法,其特征在于,包括:

2.根据权利要求1所述的敏感词过滤方法,其特征在于,所述获取树形结构敏感词库,包括:

3.根据权利要求1所述的敏感词过滤方法,其特征在于,所述切面敏感词过滤业务逻辑,包括:

4.根据权利要求1至3任一项所述的敏感词过滤方法,其特征在于,基于面向切面技术设计所述切面敏感词过滤业务逻辑,包括:

5.根据权利要求1所述的敏感词过滤方法,其特征在于,所述基于所述树形结构敏感词库利用接口处的所述切面敏感词过滤业务逻辑对所...

【专利技术属性】
技术研发人员:景晟曾旭
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1