一种文本内容的敏感分析方法及系统技术方案

技术编号:36097541 阅读:51 留言:0更新日期:2022-12-24 11:16
本发明专利技术涉及文本信息处理技术领域,特别涉及一种文本内容的敏感分析方法及系统,包括,挖掘潜在敏感关键词,对敏感词库进行扩充。构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词。将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。基于所有敏感信息类型,对所述待检测文本进行威胁评级。可以提高对敏感信息类型确定的准确性,进而来提高敏感信息确定文本的威胁情况。敏感信息确定文本的威胁情况。敏感信息确定文本的威胁情况。

【技术实现步骤摘要】
一种文本内容的敏感分析方法及系统


[0001]本专利技术涉及文本信息处理
,特别涉及一种文本内容的敏感分析方法及系统。

技术介绍

[0002]目前,传统的敏感信息检测方式基本采用关键字或正则去匹配响应中的敏感信息,如涉黄、涉暴、涉政等,这些主要依赖安全运营人员的经验对敏感信息进行筛选,由于安全运营人员的经验不一,会导致误报率以及漏报率的概率增加,使得敏感信息类型的确定准确性下降,进而导致对文本所存在的威胁判断出现失误。
[0003]因此,本专利技术提出一种文本内容的敏感分析方法及系统。

技术实现思路

[0004]本专利技术提供一种文本内容的敏感分析方法及系统,用以通过对词库扩充以及对敏感词进行类别概率值的确定,并筛选最高概率值对应的敏感类别,可以提高对敏感信息类型确定的准确性,进而来提高敏感信息确定文本的威胁情况。
[0005]本专利技术提供一种文本内容的敏感分析方法,包括:步骤1:挖掘潜在敏感关键词,对敏感词库进行扩充;步骤2:构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;步骤3:将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;步骤4:基于所有敏感信息类型,对所述待检测文本进行威胁评级。
[0006]优选的,挖掘潜在敏感关键词,对敏感词库进行扩充,包括:获取定时更新的敏感数据;对定时更新的敏感数据进行文本分词,并训练词向量;将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。
[0007]优选的,基于所有敏感信息类型,对所述待检测文本进行威胁评级,包括:确定所述待检测文本中每个第一敏感词的维度特征;基于敏感信息分级模型,并结合对应第一敏感词的维度特征,确定对应第一敏感词所匹配的每个维度特征的特征权重;基于所有第一敏感词的所有特征权重,计算所述待检测文本的文本敏感指数;按照所述文本敏感指数对所述待检测文本进行评分;根据评分结果对威胁结果进行评级,并输出与所述待检测文本匹配的威胁标签;其中,所述威胁标签包括:高危标签、中危标签以及低危标签;所述维度特征包括:类型维度、同类型数据维度以及敏感严重维度。
[0008]优选的,构建关键词树,包括:确定扩充后的敏感词库中的历史关键词以及新增关键词;获取每个历史关键词每次历史搜索的被定义结果,构建被定义集合;分析所述被定义集合,确定对应历史关键词的敏感定义等级,按照等级

优先级转换机制,获取得到对应历史关键词的第一优先级;获取每个新增关键词的设定标签,按照标签

优先级转换机制,确定每个新增关键词的第二优先级;根据所述历史关键词以及新增关键词的敏感前缀,进行词层级划分,构建得到初始树;按照对应历史关键词的第一优先级以及对应新增关键词的第二优先级,输入到所述初始树的对应位置上,构建得到关键词树;其中,所述新增关键词为潜在敏感关键词。
[0009]优选的,分析所述被定义集合,确定对应历史关键词的敏感定义等级,包括:分析所述被定义集合中存在的同类定义以及每个同类定义包含的被定义次数,同时,获取每个同类定义中每个被定义结果的定义时间集合;获取中每个相邻时间段的时间间隔以及到时间段内对应的总定义次数,来确定对应同类定义的被定义随机性;按照被定义次数以及被定义随机性,获取得到对应历史关键词的定义等级;其中,表示对应同类定义中第次被定义结果的定义时间点;表示对应同类定义中第次被定义结果的定义时间点;表示对应同类定义结果中第次被定义结果的定义时间点;表示对应同类定义结果中第次被定义结果的定义时间点。
[0010]优选的,将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型,包括:将每个第一敏感词分别输入到敏感分类模型中,获取得到对应第一敏感词的敏感类别,并分别确定对应第一敏感词基于每个敏感类别的初始概率值;将所有的初始概率值进行排序,并判断最高概率值是否为一个;若为一个,将对应最高概率值对应的敏感类别作为第一敏感词的敏感信息类型;若不为一个,获取最高概率值对应的所有待分析类别以及剩余分析类别;分别确定每个待分析类别与剩余分析类别的第一匹配程度,同时,分别确定每个待分析类别与余下待分析类别的第二匹配程度;判断所述第一匹配程度以及第二匹配程度是否满足筛选条件,若满足,筛选得到
最佳敏感类别作为对应第一敏感词的敏感信息类型;若不满足,对所述敏感分类模型的当下识别精度进行精度细化,并按照精度细化后的模型继续对每个待分析类别对应的第一敏感词进行分析,筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。
[0011]本专利技术提供一种文本内容的敏感分析系统,包括:扩充模块,用于挖掘潜在敏感关键词,对敏感词库进行扩充;词识别模块,用于构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;类别确定模块,用于将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;评级模块,用于基于所有敏感信息类型,对所述待检测文本进行威胁评级。
[0012]优选的,所述扩充模块,包括:数据获取单元,用于获取定时更新的敏感数据;训练单元,用于对定时更新的敏感数据进行文本分词,并训练词向量;库扩充单元,用于将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。
[0013]本专利技术提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行任一项所述方法的步骤。
[0014]本专利技术提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行任一项所述方法的步骤。
[0015]与现有技术相比,本申请的有益效果如下:通过对词库扩充以及对敏感词进行类别概率值的确定,并筛选最高概率值对应的敏感类别,可以提高对敏感信息类型确定的准确性,进而来提高敏感信息确定文本的威胁情况。
[0016]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0017]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0018]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中一种文本内容的敏感分析方法的流程图;图2为本专利技术实施例中敏感词库的扩充流程图;图3为本专利技术实施例中一种文本内容的敏感分析方法的结构图。
具体实施方式
[0019]以下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本内容的敏感分析方法,其特征在于,包括:步骤1:挖掘潜在敏感关键词,对敏感词库进行扩充;步骤2:构建关键词树,利用AC自动机算法遍历待检测文本,识别所述待检测文本包含的第一敏感词;步骤3:将每个第一敏感词分别输入到敏感分类模型中,得到对应第一敏感词基于不同敏感类别的类别概率值,并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型;步骤4:基于所有敏感信息类型,对所述待检测文本进行威胁评级。2.根据权利要求1所述的文本内容的敏感分析方法,其特征在于,挖掘潜在敏感关键词,对敏感词库进行扩充,包括:获取定时更新的敏感数据;对定时更新的敏感数据进行文本分词,并训练词向量;将所述词向量进行相似度匹配,提取潜在敏感关键词,对敏感词库进行扩充。3.根据权利要求2所述的文本内容的敏感分析方法,其特征在于,基于所有敏感信息类型,对所述待检测文本进行威胁评级,包括:确定所述待检测文本中每个第一敏感词的维度特征;基于敏感信息分级模型,并结合对应第一敏感词的维度特征,确定对应第一敏感词所匹配的每个维度特征的特征权重;基于所有第一敏感词的所有特征权重,计算所述待检测文本的文本敏感指数;按照所述文本敏感指数对所述待检测文本进行评分;根据评分结果对威胁结果进行评级,并输出与所述待检测文本匹配的威胁标签;其中,所述威胁标签包括:高危标签、中危标签以及低危标签;所述维度特征包括:类型维度、同类型数据维度以及敏感严重维度。4.根据权利要求1所述的文本内容的敏感分析方法,其特征在于,构建关键词树,包括:确定扩充后的敏感词库中的历史关键词以及新增关键词;获取每个历史关键词每次历史搜索的被定义结果,构建被定义集合;分析所述被定义集合,确定对应历史关键词的敏感定义等级,按照等级

优先级转换机制,获取得到对应历史关键词的第一优先级;获取每个新增关键词的设定标签,按照标签

优先级转换机制,确定每个新增关键词的第二优先级;根据所述历史关键词以及新增关键词的敏感前缀,进行词层级划分,构建得到初始树;按照对应历史关键词的第一优先级以及对应新增关键词的第二优先级,输入到所述初始树的对应位置上,构建得到关键词树;其中,所述新增关键词为潜在敏感关键词。5.根据权利要求4所述的文本内容的敏感分析方法,其特征在于,分析所述被定义集合,确定对应历史关键词的敏感定义等级,包括:分析所述被定义集合中存在的同类定义以及每个同类定义包含的被定义次数,同时,获取每个同类定义中每个被定义结果的定义时间集合;
获取中每个相邻时间段的时间间隔以及到时间段内对应的总定义次数,来确定对应同类定义的被定义随机性;按照被定义次...

【专利技术属性】
技术研发人员:胡红亮杨万波
申请(专利权)人:北京国科众安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1