一种基于训练模型的数据库表分类分级方法及系统技术方案

技术编号：39846565 阅读：10 留言：0更新日期：2023-12-29 16:44

本发明专利技术公开了一种基于训练模型的数据库表分类分级方法及系统，包括以下步骤：

全部详细技术资料下载

【技术实现步骤摘要】
一种基于训练模型的数据库表分类分级方法及系统

[0001]本专利技术涉及数据安全
，尤其涉及一种基于训练模型的数据库表分类分级方法及系统
。

技术介绍

[0002]数据分类分级是识别重要数据，落实重要数据安全保护措施的基础
。
通过对数据库表进行合理的分类和分级，可以实现对不同类型和级别的数据进行精细化管理，可以更好地区分敏感数据和非敏感数据
。
通过对数据库表中的敏感数据采取更严格的访问权限控制和加密措施，可以更好地保护数据的机密性和完整性
。
同时，根据数据的分类和分级，可以合理地开放数据，为不同的数据库用户提供不同级别的数据访问权限，以满足不同的需求
。
[0003]现有常见的数据库表分类分级技术手段主要可归为两类：一类是基于规则匹配技术，逐一对数据库表中的数据进行基于字段的分类分级；另一类是基于机器学习和深度语义分析等方式，利用表名称
、
字段名称
、
字段备注等元数据构建模型进行分类分级，或通过表名称和字段名称之间的关联关系复用已有的分类分级结果
。
然而，基于规则匹配技术的分类分级需要逐一匹配数据以确定其分类，对数据进行规则匹配时还需要考虑多个规则的匹配和处理顺序，由于数据库表中数据量大且数据变化频繁，逐一对数据库表中的数据进行规则匹配效率低下；而利用表名称
、
字段名称
、
字段备注等元数据构建模型进行分类分级高度依赖于元数据的质量和准确性，仅通过...

【技术保护点】

【技术特征摘要】
1.
一种基于训练模型的数据库表分类分级方法，其特征在于，包括以下步骤：
S1
：提取随机采样数据，通过规则匹配自动标记样本数据；
S2
：对样本数据进行特征提取和预处理，训练分类分级模型；
S3
：使用训练模型识别和标记数据库表中数据；
S4
：计算每列数据的分类匹配度，根据排序结果确定分类标记；
S5
：根据分类分级规则和分类标记确定数据库表的分级
。2.
根据权利要求1所述的一种基于训练模型的数据库表分类分级方法，其特征在于，步骤
S1
具体包括：通过随机采样的方式从每个数据库表中获取一定数量的样本数据；对随机采样的数据先按照数据类型
、
数据长度
、
是否包含中文等维度进行划分，然后使用识别规则依次对不同维度的样本数据进行规则匹配；自动标记出符合规则的样本数据，生成训练数据集
。3.
根据权利要求1或2所述的一种基于训练模型的数据库表分类分级方法，其特征在于，将样本数据拆分为训练集和验证集，样本数据中
80%
的数据作为训练集，
20%
的数据作为验证集，对训练集数据进行特征提取和预处理，采用深度学习算法对数据进行模型训练，构建分类分级模型
。4.
根据权利要求3所述的一种基于训练模型的数据库表分类分级方法，其特征在于，采用深度学习算法对数据进行模型训练，构建分类分级模型，包括：使用训练集对分类分级模型进行迭代优化训练；使用交叉熵损失函数作为目标函数，通过梯度下降算法优化调整模型参数；交叉熵损失函数的计算公式为...

【专利技术属性】
技术研发人员：孙小平，李佳，陈影，朱闻江，古富利，宋涤非，薛丽敏，徐三茗，
申请(专利权)人：华信咨询设计研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人