数据表的脱敏分类方法、分类模型训练方法及装置制造方法及图纸

技术编号:36562683 阅读:23 留言:0更新日期:2023-02-04 17:18
本申请提供一种数据表的脱敏分类方法、分类模型训练方法及装置,涉及数据处理技术领域。其中,数据表的脱敏分类方法包括:获取数据表的表结构信息;从表结构信息中,获取字段信息;通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,其中,数据分类模型为训练得到的神经网络模型。从而,引入神经网络模型,提高对结构化数据的敏感类型识别的精准度与可迁移性。敏感类型识别的精准度与可迁移性。敏感类型识别的精准度与可迁移性。

【技术实现步骤摘要】
数据表的脱敏分类方法、分类模型训练方法及装置


[0001]本申请涉及数据处理
,尤其涉及一种数据表的脱敏分类方法、分类模型训练方法及装置。

技术介绍

[0002]随着数字化时代的进步,数据爆炸式增长催化了数字产业的蓬勃发展。对各种形式数据的敏感信息进行有效控制的同时,最大程度地减少对数据效用性的损耗,才能够加快数据的流通,推动数字产品的消费与应用。
[0003]数据脱敏是一种对敏感数据进行保护,同时又可以最大程度保留原数据信息的数据安全技术。在数据脱敏中需进行敏感数据的识别。相关技术中,可使用按照规则的正则匹配方式,利用基于专家经验编写的规则库和模式串,对待进行处理的数据进行正则匹配,实现对数据中敏感信息的识别。
[0004]然而,上述方式的灵活性不足,在不同数据之间的迁移性较差,在不同的脱敏系统间或者不同场景的数据下,甚至需要对规则库进行大量修改。

技术实现思路

[0005]本申请提供一种数据表的脱敏分类方法、分类模型训练方法及装置,用以敏感信息识别方式的灵活性不足、在不同数据之间的迁移性较差的问题。
[0006]第一方面,本申请提供一种数据表的脱敏分类方法,包括:获取数据表的表结构信息;从表结构信息中,获取字段信息;通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,其中,数据分类模型为训练得到的神经网络模型。
[0007]在一种可行的实现方式中,获取数据表的表结构信息,包括:通过数据库管理语句,对数据库进行遍历,得到数据表的建表语句;利用正则表达式对建表语句进行解析,得到表结构信息。
[0008]在一种可行的实现方式中,数据分类模型包括第一滤波器、第二滤波器、第一BiGRU模型、第二BiGRU模型和径向基函数RBF神经网络。通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,包括:通过编码模型对字段信息进行编码,得到字段信息的词向量;将词向量分别输入第一滤波器和第二滤波器,在第一滤波器中通过多个卷积核对词向量进行特征提取,得到第一滤波特征,在第二滤波器中通过多个卷积核对词向量进行特征提取,得到第二滤波特征;将第一滤波特征输入至第一BiGRU模型,将第二滤波特征输入至第二BiGRU模型,在第一BiGRU模型中通过注意力机制对第一滤波特征进行上下文特征提取,得到第一上下文特征,在第二BiGRU模型中通过注意力机制对第二滤波特征进行上下文特征提取,得到第二上下文特征;将第一上下文特征和第二上下文特征输入至RBF神经网络,在RBF神经网络中对字段信息进行敏感类型识别,得到预测敏感类型。
[0009]在一种可行的实现方式中,对字段信息进行编码,得到字段信息的词向量,包括:
确定字段信息的初始向量;将初始向量输入至连续词袋模型,在连续词袋模型中,基于初始向量预测字段信息对应的类别概率;根据类别概率,确定词向量。
[0010]第二方面,本申请提供一种分类模型训练方法,包括:获取训练数据集,训练数据集包括数据表的表结构信息中的字段信息和字段信息对应的类型标签,类型标签表示字段信息实际所属的敏感类型;根据训练数据集,对数据分类模型进行训练,其中,数据分类模型用于在根据上述第一方面提供的数据表的脱敏分类方法中对数据表进行敏感类型识别。
[0011]在一种可行的实现方式中,数据分类模型包括第一滤波器、第二滤波器、第一BiGRU模型、第二BiGRU模型和RBF神经网络,数据分类模型的训练为多次。数据分类模型的一次训练过程,包括:通过编码模型对字段信息进行编码,得到字段信息的词向量;将词向量分别输入第一滤波器和第二滤波器,在第一滤波器中通过多个卷积核对词向量进行特征提取,得到第一滤波特征,在第二滤波器中通过多个卷积核对词向量进行特征提取,得到第二滤波特征;将第一滤波特征输入至第一BiGRU模型,将第二滤波特征输入至第二BiGRU模型,在第一BiGRU模型中通过注意力机制对第一滤波特征进行上下文特征提取,得到第一上下文特征,在第二BiGRU模型中通过注意力机制对第二滤波特征进行上下文特征提取,得到第二上下文特征;将第一上下文特征和第二上下文特征输入至RBF神经网络,在RBF神经网络中对字段信息进行敏感类型识别,得到预测敏感类型;根据类型标签与预测敏感类型之间的差异,调整编码模型和数据分类模型的模型参数。
[0012]第三方面,本申请提供一种数据表的脱敏分类装置,包括:结构信息获取单元,用于获取数据表的表结构信息;字段获取单元,用于从表结构信息中,获取字段信息;脱敏分类单元,用于通过数据分类模型,对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型,其中,数据分类模型为训练得到的神经网络模型。
[0013]第四方面,本申请提供一种分类模型训练装置,包括:训练数据获取单元,用于获取训练数据集,训练数据集包括数据表的表结构信息中的字段信息和字段信息对应的类型标签,类型标签表示字段信息实际所属的敏感类型;模型训练单元,用于根据训练数据集,对数据分类模型进行训练,其中,数据分类模型用于在根据第一方面提供的数据表的脱敏分类方法中对数据表进行敏感类型识别。
[0014]第五方面,本申请提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述第一方面提供的数据表的脱敏分类方法或者执行如上述第二方面提供的分类模型训练方法。
[0015]第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述第一方面提供的数据表的脱敏分类方法或者实现如上述第二方面提供的分类模型训练方法。
[0016]第七方面,本申请提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的数据表的脱敏分类方法或者实现如上述第二方面所述的分类模型训练方法。
[0017]本申请提供的数据表的脱敏分类方法、装置、设备及介质,针对作为结构化数据之一的数据表,从数据表的表结构信息中获取字段信息,通过数据分类模型对字段信息进行敏感类型识别,得到字段信息对应的预测敏感类型。其中,数据分类模型为训练得到的神经
网络模型。从而,利用神经网络模型,实现对结构化数据之一的数据表的敏感类型识别,实现数据库表结构的自动化管理,不需要依赖大量的专家知识,灵活性高、可迁移性高,人工成本低。
附图说明
[0018]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0019]图1示出了本公开实施例适用的一种应用场景的示意图;
[0020]图2为本申请实施例提供的数据表的脱敏分类方法的流程示意图一;
[0021]图3为本申请实施例提供的数据表的脱敏分类方法的流程示意图二;
[0022]图4为本申请实施例提供本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据表的脱敏分类方法,其特征在于,包括:获取数据表的表结构信息;从所述表结构信息中,获取字段信息;通过数据分类模型,对所述字段信息进行敏感类型识别,得到所述字段信息对应的预测敏感类型,其中,所述数据分类模型为训练得到的神经网络模型。2.根据权利要求1所述的数据表的脱敏分类方法,其特征在于,所述获取数据表的表结构信息,包括:通过数据库管理语句,对数据库进行遍历,得到所述数据表的建表语句;利用正则表达式对所述建表语句进行解析,得到所述表结构信息。3.根据权利要求1所述的数据表的脱敏分类方法,其特征在于,所述数据分类模型包括第一滤波器、第二滤波器、第一双向门控循环单元BiGRU模型、第二BiGRU模型和径向基函数RBF神经网络;所述通过数据分类模型,对所述字段信息进行敏感类型识别,得到所述字段信息对应的预测敏感类型,包括:通过编码模型对所述字段信息进行编码,得到所述字段信息的词向量;将所述词向量分别输入所述第一滤波器和所述第二滤波器,在所述第一滤波器中通过多个卷积核对所述词向量进行特征提取,得到第一滤波特征,在所述第二滤波器中通过多个卷积核对所述词向量进行特征提取,得到第二滤波特征;将所述第一滤波特征输入至第一BiGRU模型,将所述第二滤波特征输入至所述第二BiGRU模型,在所述第一BiGRU模型中通过注意力机制对所述第一滤波特征进行上下文特征提取,得到第一上下文特征,在所述第二BiGRU模型中通过注意力机制对所述第二滤波特征进行上下文特征提取,得到第二上下文特征;将所述第一上下文特征和所述第二上下文特征输入至所述RBF神经网络,在所述RBF神经网络中对所述字段信息进行敏感类型识别,得到所述预测敏感类型。4.根据权利要求3所述的数据表的脱敏分类方法,其特征在于,所述对所述字段信息进行编码,得到所述字段信息的词向量,包括:确定所述字段信息的初始向量;将所述初始向量输入至连续词袋模型,在所述连续词袋模型中,基于所述初始向量预测所述字段信息对应的类别概率;根据所述类别概率,确定所述词向量。5.一种分类模型训练方法,其特征在于,包括:获取训练数据集,所述训练数据集包括数据表的表结构信息中的字段信息和所述字段信息对应的类型标签,所述类型标签表示所述字段信息实际所属的敏感类型;根据所述训练数据集,对数据分类模型进行训练,其中,所述数据分类模型用于在根据权利要求1

4中任一项所述的数据表的脱敏分类方法中对数据表进行敏感类型识别。6.根据权利要求5所述的分类模型训练方法,其特征在于,所述数据分类模型包括第一滤波器、第二滤波器、第一BiGRU模型、第二BiGRU模型和...

【专利技术属性】
技术研发人员:王刚张效铭
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1