一种基于敏感度及精准度的敏感词检测方法及系统技术方案

技术编号:38503135 阅读:10 留言:0更新日期:2023-08-19 16:51
本发明专利技术公开一种基于敏感度及精准度的敏感词检测方法,包括:确定敏检服务的检测度,根据所述检测度的取值判断是否对被检测文本数据启动敏检服务;启动敏检服务后,根据所述检测度的取值从检索库中查找所有与当前检测度取值相匹配的敏感词建立基准库,并将所述基准库分为若干子池,以所述若干子池中的部分或者全部作为检测池;对被检测文本数据进行拆分处理得到被拆分的被检测词,判断检测池中是否包含所述被拆分的被检测词;若所述检测池中包含所述被拆分的被检测词则判定被检测文本数据涉及敏感词,否则判定为不涉及敏感词。借此,本发明专利技术可以让敏感词的检测更加灵活和智能,给用户更好的体验,同时单体服务维护成本也较低,部署和维护方便快捷。部署和维护方便快捷。部署和维护方便快捷。

【技术实现步骤摘要】
一种基于敏感度及精准度的敏感词检测方法及系统


[0001]本专利技术涉及计算机网络传输数据处理领域,特别是一种基于敏感度及精准度的敏感词检测方法及系统。

技术介绍

[0002]敏感词是指含有敏感字眼的词,一些词的使用可能会造成不好的影响,为此有些词的使用是需要做一些限制,以防止造成不好的影响。目前对于敏感词的检测方式基本上分为两种,要么是完全不检测,要么是对敏感词进行全库检测。对于完全不检测的情形,由于一些词的使用可能会造成不好的影响,在一些特定的情形下如果不对这些敏感词的使用做一定的限制,可能甚至大多数情况下都会造成不好的影响。而对于对敏感词进行全库检测的情形,一般而言,敏感词库的数据量是比较大的,一方面现实场景中大部分文本为正常文本,无差别的全库检测会耗费大量计算时间,而且容易误判,因此效率和准确率较低;另一方面,现实场景中是存在不同的场景情况,某些场景中对敏感词汇的限制要求是比较高的,而某些场景中对一些敏感词汇的限制要求是比较低的,甚至某些敏感词汇在一些场景中属于敏感词汇,而在另外一些场景中则不属于敏感词汇。总的来说,现实场景中使用者根据不同的场景需求,对敏感词的敏检服务需求是不同的,现有的敏检服务方法及系统不能很好地适应用户的这种需求,还有待进一步地优化和改进。

技术实现思路

[0003]本专利技术针对上述问题,提供一种基于敏感度及精准度的敏感词检测方法,包括:
[0004]确定敏检服务的检测度,根据所述检测度的取值判断是否对被检测文本数据启动敏检服务;
[0005]启动敏检服务后,根据所述检测度的取值从检索库中查找所有与当前检测度取值相匹配的敏感词建立基准库,并将所述基准库分为若干子池,以所述若干子池中的部分或者全部作为检测池;
[0006]对所述被检测文本数据进行拆分处理得到被拆分的被检测词,判断检测池中是否包含所述被拆分的被检测词;
[0007]若所述检测池中包含所述被拆分的被检测词则判定被检测文本数据涉及敏感词,若所述检测池中不包含所述被拆分的被检测词则判定被检测文本数据不涉及敏感词;
[0008]返回敏检服务的最终比较结果,结束本次敏检服务检测。
[0009]作为本专利技术的进一步说明,所述检测度包含敏感度和精准度两个检测维度,其中所述敏感度用于确定敏感词的敏感程度,所述精准度用于对当前敏检服务进行精准度控制。
[0010]更进一步地,所述检测度的取值范围是0

AB,其中A为代表所述敏感度的敏感基数,B为代表所述精准度的精准度基数,且A和B均为0到9的自然数。
[0011]更进一步地,所述敏感词在所述检索库中具有代表其敏感度级别的敏感度数值。
[0012]更进一步地,所述敏感度数值为0到9的自然数,由管理员录入和调整。
[0013]更进一步地,所述检测池的确定步骤包括:
[0014]从检索库中查找所有敏感度大于等于所述敏感基数A的敏感词作为基准库,将所述基准库均分为编号为0

9的共10个子池,取编号小于所述精准度基数B的所有子池中的所有数据作为所述检测池。
[0015]本专利技术的另一方面,提供一种基于敏感度及精准度的敏感词检测系统,包括:
[0016]敏检服务模块,用于获取敏检服务的基础数据并向用户返回检测结果;
[0017]检测池模块,用于根据敏检服务的检测度从检索库中获取与检测度相匹配的敏感词数据并建立用于本次敏检服务的检测池;
[0018]分词模块,用于对所述被检测文本数据进行拆分处理得到被拆分的被检测词;
[0019]判断模块,用于判断识别所述检测池是否包含被拆分的被检测词并得到所述检测结果。
[0020]更进一步地,所述敏检服务模块包含鉴权单元,在对用户进行认证鉴权成功后启动所述敏检服务。
[0021]本专利技术的有益效果:
[0022]本专利技术在敏感词检测中,通过基于敏感度和精准度的设置,用户可以根据不同的敏感度、精准度来对敏感词进行检测,可以根据使用者的不同需求,用户可以根据自己的需要调整敏感词的等级,同时也可以增加自己所需的敏感词,以适配不同的场景需求,让敏感词的检测更加灵活和智能,给用户更好的体验。同时管理员也可以对敏感词库进行维护,单体服务维护成本也较低,部署和维护方便快捷。
附图说明
[0023]图1为本专利技术基于敏感度及精准度的敏感词检测方法的流程图。
具体实施方式
[0024]下面结合附图对本专利技术实施例详细的说明,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0025]在本专利技术的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“第一”、“第二”等指示的方位或位置或顺序关系为基于附图所示的方位或位置或顺序关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0026]本专利技术提供一种基于敏感度及精准度的敏感词检测方法,包括:
[0027]确定敏检服务的检测度,根据所述检测度的取值判断是否对被检测文本数据启动敏检服务;
[0028]启动敏检服务后,根据所述检测度的取值从检索库中查找所有与当前检测度取值相匹配的敏感词建立基准库,并将所述基准库分为若干子池,以所述若干子池中的部分或者全部作为检测池;
[0029]对所述被检测文本数据进行拆分处理得到被拆分的被检测词,判断检测池中是否包含所述被拆分的被检测词;
[0030]若所述检测池中包含所述被拆分的被检测词则判定被检测文本数据涉及敏感词,若所述检测池中不包含所述被拆分的被检测词则判定被检测文本数据不涉及敏感词;
[0031]返回敏检服务的最终比较结果,结束本次敏检服务检测。
[0032]在本专利技术的一个实施例中,所述检测度包含敏感度和精准度两个检测维度,其中所述敏感度用于确定敏感词的敏感程度,所述精准度用于对当前敏检服务进行精准度控制。本专利技术所述的敏感度是指敏感词的敏感程度,例如敏感度的可以取值为0~9,即敏感度级别为0到9,数字越大敏感度越高,0代表不敏感。本专利技术的精准度是指对敏感词的过滤程度,例如精准度的可以取值为0~9,其中0代表全库检索,1代表10%精准度,9代表90%精准度。
[0033]具体在本专利技术的实施例中,敏感度和精准度采用至少1位数字至多2位数字表示,取值为0、10

99,其中十位代表敏感度,个位代表精准度。当取值为0时代表不进行敏感词相关处理,取值为10

99时代表开启对应级别的敏感度和精准度检测控制。
[0034]对于敏感度,我们定义敏感度的级别为0到9,其中0代表不敏感,1~9分别代表不同程度的敏感度,其中数字越大敏感度越高。管理员在录入敏感词时,敏检服务会将管理员录入的敏感词和敏感度进行记录,在用户通过接口调用敏检服务做敏感词检测时,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于敏感度及精准度的敏感词检测方法,其特征在于,包括:确定敏检服务的检测度,根据所述检测度的取值判断是否对被检测文本数据启动敏检服务;启动敏检服务后,根据所述检测度的取值从检索库中查找所有与当前检测度取值相匹配的敏感词建立基准库,并将所述基准库分为若干子池,以所述若干子池中的部分或者全部作为检测池;对所述被检测文本数据进行拆分处理得到被拆分的被检测词,判断检测池中是否包含所述被拆分的被检测词;若所述检测池中包含所述被拆分的被检测词则判定被检测文本数据涉及敏感词,若所述检测池中不包含所述被拆分的被检测词则判定被检测文本数据不涉及敏感词;返回敏检服务的最终比较结果,结束本次敏检服务检测。2.根据权利要求1所述基于敏感度及精准度的敏感词检测方法,其特征在于:所述检测度包含敏感度和精准度两个检测维度,其中所述敏感度用于确定敏感词的敏感程度,所述精准度用于对当前敏检服务进行精准度控制。3.根据权利要求2所述基于敏感度及精准度的敏感词检测方法,其特征在于:所述检测度的取值范围是0

AB,其中A为代表所述敏感度的敏感基数,B为代表所述精准度的精准度基数,且A和B均为0到9的自然数。4.根据权利要求3所述基于敏感...

【专利技术属性】
技术研发人员:弋翔张晶晶乔治李雪欣邹西山李韩刘艾军罗岚罗志亮温雪阳邓宇翔陈静娴陈星
申请(专利权)人:联通在线信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1