一种文本内容的敏感分析方法及系统技术方案

技术编号：36097541 阅读：51 留言：0更新日期：2022-12-24 11:16

本发明专利技术涉及文本信息处理技术领域，特别涉及一种文本内容的敏感分析方法及系统，包括，挖掘潜在敏感关键词，对敏感词库进行扩充。构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词。将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型。基于所有敏感信息类型，对所述待检测文本进行威胁评级。可以提高对敏感信息类型确定的准确性，进而来提高敏感信息确定文本的威胁情况。敏感信息确定文本的威胁情况。敏感信息确定文本的威胁情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本内容的敏感分析方法及系统

[0001]本专利技术涉及文本信息处理
，特别涉及一种文本内容的敏感分析方法及系统。

技术介绍

[0002]目前，传统的敏感信息检测方式基本采用关键字或正则去匹配响应中的敏感信息，如涉黄、涉暴、涉政等，这些主要依赖安全运营人员的经验对敏感信息进行筛选，由于安全运营人员的经验不一，会导致误报率以及漏报率的概率增加，使得敏感信息类型的确定准确性下降，进而导致对文本所存在的威胁判断出现失误。
[0003]因此，本专利技术提出一种文本内容的敏感分析方法及系统。

技术实现思路

[0004]本专利技术提供一种文本内容的敏感分析方法及系统，用以通过对词库扩充以及对敏感词进行类别概率值的确定，并筛选最高概率值对应的敏感类别，可以提高对敏感信息类型确定的准确性，进而来提高敏感信息确定文本的威胁情况。
[0005]本专利技术提供一种文本内容的敏感分析方法，包括：步骤1：挖掘潜在敏感关键词，对敏感词库进行扩充；步骤2：构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词；步骤3：将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型；步骤4：基于所有敏感信息类型，对所述待检测文本进行威胁评级。
[0006]优选的，挖掘潜在敏感关键词，对敏感词库进行扩充，包括：获取定时更新的敏感数据；对定时更新的敏感数据进行文本分词，并训练词向量；将所...

【技术保护点】

【技术特征摘要】
1.一种文本内容的敏感分析方法，其特征在于，包括：步骤1：挖掘潜在敏感关键词，对敏感词库进行扩充；步骤2：构建关键词树，利用AC自动机算法遍历待检测文本，识别所述待检测文本包含的第一敏感词；步骤3：将每个第一敏感词分别输入到敏感分类模型中，得到对应第一敏感词基于不同敏感类别的类别概率值，并筛选最高概率值对应的敏感类别作为对应第一敏感词的敏感信息类型；步骤4：基于所有敏感信息类型，对所述待检测文本进行威胁评级。2.根据权利要求1所述的文本内容的敏感分析方法，其特征在于，挖掘潜在敏感关键词，对敏感词库进行扩充，包括：获取定时更新的敏感数据；对定时更新的敏感数据进行文本分词，并训练词向量；将所述词向量进行相似度匹配，提取潜在敏感关键词，对敏感词库进行扩充。3.根据权利要求2所述的文本内容的敏感分析方法，其特征在于，基于所有敏感信息类型，对所述待检测文本进行威胁评级，包括：确定所述待检测文本中每个第一敏感词的维度特征；基于敏感信息分级模型，并结合对应第一敏感词的维度特征，确定对应第一敏感词所匹配的每个维度特征的特征权重；基于所有第一敏感词的所有特征权重，计算所述待检测文本的文本敏感指数；按照所述文本敏感指数对所述待检测文本进行评分；根据评分结果对威胁结果进行评级，并输出与所述待检测文本匹配的威胁标签；其中，所述威胁标签包括：高危标签、中危标签以及低危标签；所述维度特征包括：类型维度、同类型数据维度以及敏感严重维度。4.根据权利要求1所述的文本内容的敏感分析方法，其特征在于，构建关键词树，包括：确定扩充后的敏感词库中的历史关键词以及新增关键词；获取每个历史关键词每次历史搜索的被定义结果，构建被定义集合；分析所述被定义集合，确定对应历史关键词的敏感定义等级，按照等级
‑
优先级转换机制，获取得到对应历史关键词的第一优先级；获取每个新增关键词的设定标签，按照标签
‑
优先级转换机制，确定每个新增关键词的第二优先级；根据所述历史关键词以及新增关键词的敏感前缀，进行词层级划分，构建得到初始树；按照对应历史关键词的第一优先级以及对应新增关键词的第二优先级，输入到所述初始树的对应位置上，构建得到关键词树；其中，所述新增关键词为潜在敏感关键词。5.根据权利要求4所述的文本内容的敏感分析方法，其特征在于，分析所述被定义集合，确定对应历史关键词的敏感定义等级，包括：分析所述被定义集合中存在的同类定义以及每个同类定义包含的被定义次数，同时，获取每个同类定义中每个被定义结果的定义时间集合；
获取中每个相邻时间段的时间间隔以及到时间段内对应的总定义次数，来确定对应同类定义的被定义随机性；按照被定义次...

【专利技术属性】
技术研发人员：胡红亮，杨万波，
申请(专利权)人：北京国科众安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人