文本的敏感信息识别方法、装置、存储介质与电子设备制造方法及图纸

技术编号:37324256 阅读:13 留言:0更新日期:2023-04-21 23:03
本公开提供一种文本的敏感信息识别方法、装置、存储介质与电子设备,涉及数据处理技术领域。该文本的敏感信息识别方法包括:获取预先建立的敏感词数据集;对待处理文本进行预处理,得到所述待处理文本中的待识别词;通过将所述待识别词的词特征与所述敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息。本公开能够在一定程度减少文本中敏感信息识别的计算量。中敏感信息识别的计算量。中敏感信息识别的计算量。

【技术实现步骤摘要】
文本的敏感信息识别方法、装置、存储介质与电子设备


[0001]本公开涉及数据处理
,尤其涉及一种文本的敏感信息识别方法、装置、存储介质与电子设备。

技术介绍

[0002]敏感数据的识别是数据安全技术管理的根本问题,关注数据安全,及时发现企业员工、用户操作环境的敏感数据和行为,进行有效管控,是急需解决的一项重要任务。
[0003]相关技术中,通过将待识别文本与敏感数据进行比对来识别待识别文本中的敏感数据,如此,在文本数据量较大的情况下,计算量很大,使得处理效率低下。

技术实现思路

[0004]本公开提供一种文本的敏感信息识别方法、本的敏感信息识别装置、存储介质与电子设备,以在一定程度上减少文本中敏感信息识别的计算量。
[0005]根据本公开的第一方面,提供一种文本的敏感信息识别方法,包括:获取预先建立的敏感词数据集;对待处理文本进行预处理,得到所述待处理文本中的待识别词;通过将所述待识别词的词特征与所述敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息。
[0006]在一种实施方式中,所述对对待处理文本进行预处理,得到所述待处理文本中的待识别词,包括:对所述待处理文本进行分词,得到待处理词集;将所述待处理词集中词长小于词长预设阈值的词删除,得到所述待识别词。
[0007]在一种实施方式中,所述将所述待处理词集中词长小于词长预设阈值的词删除,得到所述待识别词,包括:获取不同词性对应的词长预设阈值;将所述待处理词集中各词性下词长小于所述词性对应的词长预设阈值的词删除,得到所述待识别词。
[0008]在一种实施方式中,所述通过将所述待识别词的词特征与所述敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息,包括:根据所述待识别词的词特征,生成所述待识别词的词向量;计算所述待识别词的词向量与所述敏感词数据集中敏感词的词向量之间的相似度;所述敏感词的词向量是根据所述敏感词的词特征得到的;根据所述相似度确定所述待识别词是否为敏感信息。
[0009]在一种实施方式中,所述方法还包括:根据待筛选词对所述敏感词数据集进行筛选,得到筛选后的敏感词数据集;所述待筛选词是所述待处理文本中除所述待识别词以外的词;
[0010]所述通过将所述待识别词的词特征与所述敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息,包括:通过将所述待识别词的词特征与筛选后的敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息。
[0011]在一种实施方式中,所述根据待筛选词对所述敏感词数据集进行筛选,得到筛选后的敏感词数据集,包括:根据所述待筛选词的词性,从所述敏感词数据集中删除与所述待
筛选词的词性相同的词,得到筛选后的敏感词数据集。
[0012]在一种实施方式中,所述词特征至少包括词性、词长和词频中的一者。
[0013]根据本公开的第二方面,提供一种文本的敏感信息识别装置,包括:
[0014]获取模块,被配置为获取预先建立的敏感词数据集;
[0015]预处理模块,被配置为对待处理文本进行预处理,得到所述待处理文本中的待识别词;
[0016]确定模块,被配置为通过将所述待识别词的词特征与所述敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息。
[0017]在一种实施方式中,上述预处理模块被配置为:对所述待处理文本进行分词,得到待处理词集;将所述待处理词集中词长小于词长预设阈值的词删除,得到所述待识别词。
[0018]在一种实施方式中,上述预处理模块被配置为:获取不同词性对应的词长预设阈值;将所述待处理词集中各词性下词长小于所述词性对应的词长预设阈值的词删除,得到所述待识别词。
[0019]在一种实施方式中,上述确定模块被配置为:根据所述待识别词的词特征,生成所述待识别词的词向量;计算所述待识别词的词向量与所述敏感词数据集中敏感词的词向量之间的相似度;所述敏感词的词向量是根据所述敏感词的词特征得到的;根据所述相似度确定所述待识别词是否为敏感信息。
[0020]在一种实施方式中,该文本的敏感信息识别装置还包括筛选模块,所述筛选模块被配置为:根据待筛选词对所述敏感词数据集进行筛选,得到筛选后的敏感词数据集;所述待筛选词是所述待处理文本中除所述待识别词以外的词;
[0021]对应的,所述确定模块被配置为:通过将所述待识别词的词特征与筛选后的敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息。
[0022]在一种实施方式中,上述筛选模块被配置为:根据所述待筛选词的词性,从所述敏感词数据集中删除与所述待筛选词的词性相同的词,得到筛选后的敏感词数据集。
[0023]在一种实施方式中,所述词特征至少包括词性、词长和词频中的一者。
[0024]根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的文本的敏感信息识别方法及其可能的实现方式。
[0025]根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述第一方面的文本的敏感信息识别方法及其可能的实现方式。
[0026]本公开的技术方案具有以下有益效果:
[0027]本方案中,获取预先建立的敏感词数据集;对待处理文本进行预处理,得到所述待处理文本中的待识别词;通过将所述待识别词的词特征与所述敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息。通过对待处理文本进行预处理,得到数据量较少的待识别词,进而,将数据量较少的待识别词与敏感数据集中的敏感词进行比较,来确定待识别词是否为敏感信息;如此,能够减少敏感信息确定的计算量。
附图说明
[0028]图1为本公开实施例提供的一种系统架构的示意图;
[0029]图2为本公开实施例提供的一种文本的敏感信息识别方法的实现流程示意图;
[0030]图3为本公开实施例提供的一种对待处理文本进行预处理的实现流程示意图;
[0031]图4为本公开实施例提供的一种对待处理数据集进行筛选的实现流程示意图;
[0032]图5为本公开实施例提供的一种确定待识别词是否为敏感信息的实现流程示意图;
[0033]图6为本公开实施例提供的一种对敏感词数据集进行筛选的实现流程示意图;
[0034]图7为本公开实施例提供的一种文本的敏感信息识别装置的结构示意图;
[0035]图8为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0036]下文将结合附图更全面地描述本公开的示例性实施方式。
[0037]附图为本公开的示意性图解,并非一定是按比例绘制。附图中所示的一些方框图可能是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的敏感信息识别方法,其特征在于,包括:获取预先建立的敏感词数据集;对待处理文本进行预处理,得到所述待处理文本中的待识别词;通过将所述待识别词的词特征与所述敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息。2.根据权利要求1所述的文本的敏感信息识别方法,其特征在于,所述对对待处理文本进行预处理,得到所述待处理文本中的待识别词,包括:对所述待处理文本进行分词,得到待处理词集;将所述待处理词集中词长小于词长预设阈值的词删除,得到所述待识别词。3.根据权利要求2所述的文本的敏感信息识别方法,其特征在于,所述将所述待处理词集中词长小于词长预设阈值的词删除,得到所述待识别词,包括:获取不同词性对应的词长预设阈值;将所述待处理词集中各词性下词长小于所述词性对应的词长预设阈值的词删除,得到所述待识别词。4.根据权利要求1所述的文本的敏感信息识别方法,其特征在于,所述通过将所述待识别词的词特征与所述敏感词数据集中敏感词的词特征进行比较,确定所述待识别词是否为敏感信息,包括:根据所述待识别词的词特征,生成所述待识别词的词向量;计算所述待识别词的词向量与所述敏感词数据集中敏感词的词向量之间的相似度;所述敏感词的词向量是根据所述敏感词的词特征得到的;根据所述相似度确定所述待识别词是否为敏感信息。5.根据权利要求1所述的文本的敏感信息识别方法,其特征在于,所述方法还包括:根据待筛选词对所述敏感词数据集进行筛选,得到筛选后的...

【专利技术属性】
技术研发人员:车力军张涛涛缪璐璟周关萍
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1