System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请属于人工智能,具体涉及一种敏感数据识别方法及电子设备。
技术介绍
1、在进行敏感数据识别时,通常直接使用多分类深度学习模型训练出文本分类模型,并使用文本分类模型预测文本是否为敏感数据以及敏感数据的类型。文本分类模型的输入数据一般是单一字段,即一条单一字段数据对应预测一种敏感数据类型。
2、由于当前的文本分类模型只能处理单一字段数据,对于可能存在多种类别数据的复杂的复合字段文本,则无法进行正确分类,因而导致敏感数据识别准确性差的问题。
技术实现思路
1、本申请提供一种敏感数据识别方法及电子设备,目的在于提高敏感数据的识别准确性。
2、本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
3、根据本申请实施例的一个方面,提供一种敏感数据识别方法,该方法包括:
4、将待识别敏感数据的输入文本进行语义分割,得到一个或多个文本字段,所述文本字段包括一个或多个用于表示相同语义信息的文本字符;
5、根据预先训练的敏感等级识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感等级上的分类概率,并选取分类概率最高的敏感等级作为所述文本字段的目标敏感等级;
6、根据与所述目标敏感等级相对应的敏感类型识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感类型上的分类概率;
7、当分类概率最高的敏感类型是与所述目标敏感等级具有相关性的第一敏感类型时,将所述第一敏感类型作
8、当分类概率最高的敏感类型是与所述目标敏感等级具有互异性的第二敏感类型时,更新所述文本字段的目标敏感等级,并根据更新后的目标敏感等级识别所述文本字段的敏感类型。
9、根据本申请实施例的一个方面,提供一种敏感数据识别装置,该装置包括:
10、分割模块,被配置为将待识别敏感数据的输入文本进行语义分割,得到一个或多个文本字段,所述文本字段包括一个或多个用于表示相同语义信息的文本字符;
11、等级分类模块,被配置为根据预先训练的敏感等级识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感等级上的分类概率,并选取分类概率最高的敏感等级作为所述文本字段的目标敏感等级;
12、类型分类模块,被配置为根据与所述目标敏感等级相对应的敏感类型识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感类型上的分类概率;
13、第一类型确定模块,被配置为当分类概率最高的敏感类型是与所述目标敏感等级具有相关性的第一敏感类型时,将所述第一敏感类型作为所述文本字段的目标敏感类型;
14、第二类型确定模块,被配置为当分类概率最高的敏感类型是与所述目标敏感等级具有互异性的第二敏感类型时,更新所述文本字段的目标敏感等级,并根据更新后的目标敏感等级识别所述文本字段的敏感类型。
15、在本申请的一些实施例中,基于以上技术方案,所述分割模块包括:
16、字符识别模块,被配置为在待识别敏感数据的输入文本中,识别组成所述输入文本的各个字符的字符类型;
17、文本拆分模块,被配置为根据所述字符类型将所述输入文本拆分为一个或多个字符串,所述字符串包括一个或多个具有相同字符类型的连续字符;
18、语义分割模块,被配置为当所述字符串的长度大于预设的长度阈值时,将所述字符串进行语义分割,得到一个或多个文本字段。
19、在本申请的一些实施例中,基于以上技术方案,所述语义分割模块包括:
20、一致性校验模块,被配置为对所述字符串中的各个字符与在前的一个或多个连续字符进行语义信息的一致性校验,得到所述字符与所述一个或多个连续字符用于表示相同语义信息的一致性概率;
21、字符组合模块,被配置为当所述一致性概率大于预设的概率阈值时,将所述字符与所述一个或多个连续字符组成表示相同语义信息的文本字段。
22、在本申请的一些实施例中,基于以上技术方案,所述一致性校验模块包括:
23、数据库获取模块,被配置为获取用于对字符串进行语义信息的一致性校验的文本数据库;
24、第一字段检索模块,被配置为在所述文本数据库中对所述字符与在前的一个或多个连续字符组成的第一字段进行字段检索,得到所述第一字段在所述文本数据库中的第一分布频次;
25、第二字段检索模块,被配置为在所述文本数据库中对所述一个或多个连续字符组成的第二字段进行字段检索,得到所述第二字段在所述文本数据库中的第二分布频次;
26、一致性概率确定模块,被配置为根据所述第一分布频次与所述第二分布频次的比值确定所述字符与所述一个或多个连续字符用于表示相同语义信息的一致性概率。
27、在本申请的一些实施例中,基于以上技术方案,第二类型确定模块进一步被配置为:依次将所述文本字段的目标敏感等级更新为分类概率次高的敏感等级,并根据与所述分类概率次高的敏感等级相对应的敏感类型识别模型对所述文本字段进行分类处理,直至得到所述文本字段的目标敏感类型。
28、在本申请的一些实施例中,基于以上技术方案,所述等级分类模块包括:
29、字符映射模块,被配置为对所述文本字段中的各个字符进行映射处理,得到与所述字符相对应的词向量;
30、特征提取模块,被配置为将所述文本字段中的各个字符的词向量取平均值,得到所述文本字段的文本特征;
31、特征分类模块,被配置为根据预先训练的敏感等级识别模型对所述文本特征进行分类处理,得到所述文本字段在多个敏感等级上的分类概率。
32、在本申请的一些实施例中,基于以上技术方案,所述装置还包括敏感等级识别模型训练模块,被配置为:
33、获取用于训练敏感等级识别模型的样本数据,所述样本数据包括字段样本以及与所述字段样本相关联的敏感等级标签;
34、根据所述敏感等级识别模型对所述字段样本进行分类处理,得到所述字段样本在多个敏感等级上的分类预测信息,所述分类预测信息与所述字段样本的分类概率呈正相关关系;
35、根据所述敏感等级标签与所述分类预测信息确定所述敏感等级识别模型的损失误差,并根据所述损失误差更新所述敏感等级识别模型的模型参数。
36、在本申请的一些实施例中,基于以上技术方案,所述装置还包括敏感类型识别模型训练模块,被配置为:
37、获取用于训练敏感类型识别模型的样本数据,所述样本数据包括字段样本以及与所述字段样本相关联的敏感等级标签和敏感类型标签;
38、根据所述敏感等级识别模型对所述字段样本进行分类处理,得到所述字段样本在多个敏感等级上的分类概率,并选取分类概率最高的敏感等级作为所述字段样本的预测敏感等级;
39、根据所述分类概率确定所述字段样本的误差权重,所述误差权重包括与所述预测敏感等级相对应的第一误差权重以及与所述敏感本文档来自技高网...
【技术保护点】
1.一种敏感数据识别方法,其特征在于,包括:
2.根据权利要求1所述的敏感数据识别方法,其特征在于,将待识别敏感数据的输入文本进行语义分割,得到一个或多个文本字段,包括:
3.根据权利要求2所述的敏感数据识别方法,其特征在于,将所述字符串进行语义分割,得到一个或多个文本字段,包括:
4.根据权利要求3所述的敏感数据识别方法,其特征在于,对所述字符串中的各个字符与在前的一个或多个连续字符进行语义信息的一致性校验,得到所述字符与所述一个或多个连续字符用于表示相同语义信息的一致性概率,包括:
5.根据权利要求1所述的敏感数据识别方法,其特征在于,更新所述文本字段的目标敏感等级,并根据更新后的目标敏感等级识别所述文本字段的敏感类型,包括:
6.根据权利要求1所述的敏感数据识别方法,其特征在于,根据预先训练的敏感等级识别模型对所述文本字段进行分类处理,得到所述文本字段在多个敏感等级上的分类概率,包括:
7.根据权利要求1至6中任意一项所述的敏感数据识别方法,其特征在于,在根据预先训练的敏感等级识别模型对所述文本字段进行
8.根据权利要求1至6中任意一项所述的敏感数据识别方法,其特征在于,在根据与所述目标敏感等级相对应的敏感类型识别模型对所述文本字段进行分类处理之前,所述方法还包括:
9.根据权利要求8所述的敏感数据识别方法,其特征在于,所述误差权重与所述字段样本在多个敏感等级上的分类概率呈负相关关系。
10.一种电子设备,其特征在于,包括:
...【技术特征摘要】
1.一种敏感数据识别方法,其特征在于,包括:
2.根据权利要求1所述的敏感数据识别方法,其特征在于,将待识别敏感数据的输入文本进行语义分割,得到一个或多个文本字段,包括:
3.根据权利要求2所述的敏感数据识别方法,其特征在于,将所述字符串进行语义分割,得到一个或多个文本字段,包括:
4.根据权利要求3所述的敏感数据识别方法,其特征在于,对所述字符串中的各个字符与在前的一个或多个连续字符进行语义信息的一致性校验,得到所述字符与所述一个或多个连续字符用于表示相同语义信息的一致性概率,包括:
5.根据权利要求1所述的敏感数据识别方法,其特征在于,更新所述文本字段的目标敏感等级,并根据更新后的目标敏感等级识别所述文本字段的敏感类型,包括:
...【专利技术属性】
技术研发人员:范筝,周可,邸帅,卢道和,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。