一种基于训练模型的数据库表分类分级方法及系统技术方案

技术编号:39846565 阅读:10 留言:0更新日期:2023-12-29 16:44
本发明专利技术公开了一种基于训练模型的数据库表分类分级方法及系统,包括以下步骤:

【技术实现步骤摘要】
一种基于训练模型的数据库表分类分级方法及系统


[0001]本专利技术涉及数据安全
,尤其涉及一种基于训练模型的数据库表分类分级方法及系统


技术介绍

[0002]数据分类分级是识别重要数据,落实重要数据安全保护措施的基础

通过对数据库表进行合理的分类和分级,可以实现对不同类型和级别的数据进行精细化管理,可以更好地区分敏感数据和非敏感数据

通过对数据库表中的敏感数据采取更严格的访问权限控制和加密措施,可以更好地保护数据的机密性和完整性

同时,根据数据的分类和分级,可以合理地开放数据,为不同的数据库用户提供不同级别的数据访问权限,以满足不同的需求

[0003]现有常见的数据库表分类分级技术手段主要可归为两类:一类是基于规则匹配技术,逐一对数据库表中的数据进行基于字段的分类分级;另一类是基于机器学习和深度语义分析等方式,利用表名称

字段名称

字段备注等元数据构建模型进行分类分级,或通过表名称和字段名称之间的关联关系复用已有的分类分级结果

然而,基于规则匹配技术的分类分级需要逐一匹配数据以确定其分类,对数据进行规则匹配时还需要考虑多个规则的匹配和处理顺序,由于数据库表中数据量大且数据变化频繁,逐一对数据库表中的数据进行规则匹配效率低下;而利用表名称

字段名称

字段备注等元数据构建模型进行分类分级高度依赖于元数据的质量和准确性,仅通过元数据提供的信息可能无法全面反映数据库表中数据的含义和内容,且基于元数据构建的模型也无法动态适应新添加的具备新的特征的表和字段,在分类分级的准确性及可扩展性方面存在不足

[0004]综上所述,如何解决这些问题并进一步提升数据库表分类分级的性能

准确性及可扩展性仍然是一个待解决的挑战

[0005]例如,中国专利
CN202210436328.2
公开了一种基于主从表的数据分类分级方法和系统,该方法包括:获取对数据库中的预定表中的数据进行分类分级之后得到的分类分级结果;获取待进行数据分类分级的第一表;判断所述第一表与所述预定表是否为主从表的关系;在所述第一表和所述预定表为主从表的关系的情况下,将所述预定表的分类分级结果复用到所述第一表中,其中,复用到所述第一表包括:对于所述第一表与所述预定表中相同字段下的数据,按照所述预定表的分类分级结果对所述第一表中相同字段下的数据进行数据分类分级;该方案主要解决现有的表的分类分级的问题,然而对于存在动态更新的表的分类分级问题无法解决,扩展性差


技术实现思路

[0006]本专利技术主要解决现有的技术中对数据库表的分类分级的扩展性差的问题;提供一种基于训练模型的数据库表分类分级方法及系统,具备良好的扩展性,能更好地适应动态增加识别规则

动态增加表和字段等场景

[0007]本专利技术的上述技术问题主要是通过下述技术方案得以解决的:一种基于训练模型的数据库表分类分级方法,包括以下步骤:
S1
:提取随机采样数据,通过规则匹配自动标记样本数据;
S2
:对样本数据进行特征提取和预处理,训练分类分级模型;
S3
:使用训练模型识别和标记数据库表中数据;
S4
:计算每列数据的分类匹配度,根据排序结果确定分类标记;
S5
:根据分类分级规则和分类标记确定数据库表的分级

[0008]作为优选,步骤
S1
具体包括:通过随机采样的方式从每个数据库表中获取一定数量的样本数据;对随机采样的数据先按照数据类型

数据长度

是否包含中文等维度进行划分,然后使用识别规则依次对不同维度的样本数据进行规则匹配;自动标记出符合规则的样本数据,生成训练数据集

[0009]作为优选,将样本数据拆分为训练集和验证集,样本数据中
80%
的数据作为训练集,
20%
的数据作为验证集,对训练集数据进行特征提取和预处理,采用深度学习算法对数据进行模型训练,构建分类分级模型

[0010]作为优选,采用深度学习算法对数据进行模型训练,构建分类分级模型,包括:使用训练集对分类分级模型进行迭代优化训练;使用交叉熵损失函数作为目标函数,通过梯度下降算法优化调整模型参数;交叉熵损失函数的计算公式为:
L =
ꢀ‑ꢀ
∑(y * log(y_hat))
,其中,
L
表示损失值,
y
表示真实标签,
y_hat
表示模型的预测概率分布

[0011]作为优选,步骤
S3
中对数据库的每个表的每列数据进行数据识别和分类标记,包括:使用训练好的分类分级模型对数据库表中每列数据进行数据识别和分类标记;统计每列数据的有效数据条数和标记的每种分类对应的数据条数

[0012]作为优选,所述的计算每列数据的分类匹配度,包括:使用分类的频率作为对应分类的匹配度;匹配度的计算方式为:匹配度
=
指定分类的条数
/
有效数据的总条数

[0013]本专利技术还提供一种基于训练模型的数据库表分类分级系统,包括:数据提取模块,从数据库中提取已有的表和每个表中的部分随机采样数据;数据集生成模块,读取采样数据并根据预先定义的规则自动匹配和标记样本数据,生成训练数据集;模型训练模块,使用深度学习算法对经过特征提取和预处理的数据进行模型训练,以构建分类分级模型;数据分类标记模块,使用训练模型识别数据库表中的全部数据,对每个表的每列数据进行分类匹配度计算和排序,并根据匹配度排序结果进行分类标记;数据分级模块,根据分类分级规则和数据库表中每列数据的分类标记确定每列数据的分级和每个数据库表的分级

[0014]本专利技术的有益效果是:通过使用规则自动匹配和标记样本数据并生成训练数据集,然后使用深度学习算法训练分类分级模型并使用训练模型进行数据库表的数据识别和分类分级,能提升数据库表中存在大量数据时的数据识别效率,并且不依赖于数据库表名称

字段名称

字段备注等元数据,更好地适应动态增加识别规则

动态增加表和字段等场景,显著提高数据库表分类分级的性能

准确性及可扩展性;另外,本申请中的系统支持添
加训练数据集,允许用户根据实际情况创建识别规则和关联训练数据集,并用于训练分类分级模型,具备较好的可操作性,能够与数据安全产品实际业务结合拓展功能

附图说明
[0015]图1为本专利技术实施例提供的一种基于训练模型的数据库表分类分级方法的流程示意图
。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于训练模型的数据库表分类分级方法,其特征在于,包括以下步骤:
S1
:提取随机采样数据,通过规则匹配自动标记样本数据;
S2
:对样本数据进行特征提取和预处理,训练分类分级模型;
S3
:使用训练模型识别和标记数据库表中数据;
S4
:计算每列数据的分类匹配度,根据排序结果确定分类标记;
S5
:根据分类分级规则和分类标记确定数据库表的分级
。2.
根据权利要求1所述的一种基于训练模型的数据库表分类分级方法,其特征在于,步骤
S1
具体包括:通过随机采样的方式从每个数据库表中获取一定数量的样本数据;对随机采样的数据先按照数据类型

数据长度

是否包含中文等维度进行划分,然后使用识别规则依次对不同维度的样本数据进行规则匹配;自动标记出符合规则的样本数据,生成训练数据集
。3.
根据权利要求1或2所述的一种基于训练模型的数据库表分类分级方法,其特征在于,将样本数据拆分为训练集和验证集,样本数据中
80%
的数据作为训练集,
20%
的数据作为验证集,对训练集数据进行特征提取和预处理,采用深度学习算法对数据进行模型训练,构建分类分级模型
。4.
根据权利要求3所述的一种基于训练模型的数据库表分类分级方法,其特征在于,采用深度学习算法对数据进行模型训练,构建分类分级模型,包括:使用训练集对分类分级模型进行迭代优化训练;使用交叉熵损失函数作为目标函数,通过梯度下降算法优化调整模型参数;交叉熵损失函数的计算公式为...

【专利技术属性】
技术研发人员:孙小平李佳陈影朱闻江古富利宋涤非薛丽敏徐三茗
申请(专利权)人:华信咨询设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1