基于加权Jaccard系数的元数据分级方法及系统技术方案

技术编号:39292303 阅读:9 留言:0更新日期:2023-11-07 11:00
本发明专利技术涉及基于加权Jaccard系数的元数据分级方法及系统,属于元数据处理技术领域,所述方法包括:获取待分级的元数据;对待分级的元数据进行分词处理,生成包括多个子集的综合词集合,对待分级的元数据的对应的分级标准进行分词处理得到包括多个子集的企业分级标准词集合,获取综合词集合与企业分级标准词集合中相同类型子集之间的加权Jaccard系数,基于Jaccard系数获取待分级的元数据的等级。本申请提供的方法及系统,充分考虑2元组、3元组、4元组情况,对低字元组词进行补充匹配,提高匹配成功率,具有较强的可迁移性,无需模型训练和提前标注样本,即可对数据库数据表字段进行分级分类,可减少人工操作的时间和成本。可减少人工操作的时间和成本。可减少人工操作的时间和成本。

【技术实现步骤摘要】
基于加权Jaccard系数的元数据分级方法及系统


[0001]本专利技术涉及元数据处理
,尤其涉及一种基于加权Jaccard系数的元数据分级方法及系统。

技术介绍

[0002]在当前的互联网时代,数据被视为企业、组织和各行各业的核心资产之一,是企业经营决策的重要依据,但随着技术的发展进步数据泄露和黑客攻击越来越频繁,对数据的安全保护要求也越来越高。数据库是存储和管理数据的关键工具,对数据库的数据表字段进行分级分类,可以根据不同的级别设置不同的管理和操作权限,从而提高数据的安全性和保密性,为企业和组织的发展和进步提供了有效的保障。
[0003]目前对数据库元数据进行分级的方法主要有人工标注法、模型预测法等,人工标注通过手动标记每个字段的敏感程度,将其分为不同的级别,但是,这种方法代价昂贵、费时费力,且可能存在主观性;模型预测法使用机器学习算法来训练模型,然后预测每个字段级别,但是构建模型需要大量的数据集、计算资源和时间,并且迁移到在其他企业的数据分级场景的成本较高,还需要进行相应的领域内知识训练。

技术实现思路

[0004]本专利技术意在提供一种基于加权Jaccard系数的元数据分级方法及系统,以解决现有技术中存在的不足,本专利技术要解决的技术问题通过以下技术方案来实现。
[0005]本专利技术提供的基于加权Jaccard系数的元数据分级方法,包括:分别采集存量元数据和增量元数据,并对获取的存量元数据和增量元数据进行整合,形成待分级的元数据;判断待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N

Gram分词处理,对于缺失中文信息的待分级的元数据,将其翻译成中文字段和中文描述,对经过翻译处理的元数据进行N

Gram分词处理,形成元数据对应的综合词集合,并对形成的综合词集合进行清洗处理,其中,综合词集合包括2字词子集、3字词子集和4字词子集,且每个子集分别包括一个或多个元素;对待分级的元数据对应的不同的分级标准进行N

Gram分词处理分别得到不同的分级标准分别对应的企业分级标准词集合,其中,企业分级标准词集合包括2字词子集、3字词子集和4字词子集;对综合词集合中的子集中的元素分别分配不同的位置权重,获取综合词集合与企业分级标准词集合中相同类型子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数;从综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数开始判断,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数不全为0时,将最大
的Jaccard系数对应的企业分级标准词集合的分级标准的级别作为元数据的等级;在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数全为0时,判断综合词集合与企业分级标准词集合中3字词子集之间的Jaccard系数是否全为0,重复以上步骤,获取待分级的元数据的等级。
[0006]在上述的方案中,在判断综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数均全为0时,则将待分级的元数据写入文件中,进行人工核查分级。
[0007]在上述的方案中,通过执行SQL语句或采用数据库工具连接到数据库上,获取数据库中存量元数据。
[0008]在上述的方案中,通过监听数据库变更事件来采集增量元数据。
[0009]在上述的方案中,所述数据库变更事件包括增加表、列元素或修改表、列元素。
[0010]在上述的方案中,通过非空判断、字符长度阈值判断或正则匹配判断待分级的元数据是否存在中文字段和中文描述。
[0011]在上述的方案中,对形成的综合词集合进行清洗处理包括:对形成的综合词集合进行停用词过滤,并将经过停用词过滤处理后的综合词集合中子集中的专有名词以及数据术语通过内部知识库匹配方式进行合并和标注。
[0012]在上述的方案中,位置权重的公式为:ω
i
=k
i
,其中,i为综合词集合中子集中的元素在综合词集合中位置顺序,i=1,2,3,...n,n为位置顺序的总数,ω
i
为在综合词集合中的位置顺序为i的子集中的元素的位置权重,k为大于 1 的常数。
[0013]在上述的方案中,Jaccard系数公式为:;其中,综合词集合中的子集X和企业分级标准词集合中的子集Y,X
h
∩Y
h
为子集X和子集Y的交集,h为交集中元素在交集中的位置序号,h=1,2,
……
n,n为交集中元素的总个数,∣X
h
∩Y
h
∣表示在交集中的位置序号为h的元素的个数,其值为1,∣X∪Y∣为子集X和子集Y的并集中的元素个数,j为子集X和子集Y的交集中元素在综合词集合中的位置顺序,ω
j
为子集X和子集Y的交集中元素对应的位置权重,∑ω
j
∣X
h
∩Y
h
∣表示对子集X和子集Y的交集中元素对应的位置权重进行求和。
[0014]本专利技术提供的基于加权Jaccard系数的元数据分级系统,采用如上所述的基于加权Jaccard系数的元数据分级方法进行元数据分级,包括:元数据采集模块,用于分别采集存量元数据和增量元数据,并对获取的存量元数据和增量元数据进行整合,形成待分级的元数据;综合词集合形成模块,用于判断待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N

Gram分词处理,对于缺失中文信息的待分级的元数据,将其翻译成中文字段和中文描述,对经过翻译处理的元数据进行N

Gram分词处理,形成元数据对应的综合词集合,并对形成的综合词集合进行清洗处理,其中,综合词集合包括2字词子集、3字词子集和4字词子集,且每个子集分别包括一个或多个元素;企业分级标准词集合形成模块,用于对待分级的元数据对应的不同的分级标准进行N

Gram分词处理分别得到不同的分级标准分别对应的企业分级标准词集合,其中,企业
分级标准词集合包括2字词子集、3字词子集和4字词子集;Jaccard系数获取模块,用于对综合词集合中的子集中的元素分别分配不同的位置权重,获取综合词集合与企业分级标准词集合中相同类型子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数;元数据等级获取模块,从综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数开始判断,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数不全为0时,将最大的Jaccard系数对应的企业分级标准词集合的分级标准的级别作为元数据的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于加权Jaccard系数的元数据分级方法,其特征在于,所述方法包括:分别采集存量元数据和增量元数据,并对获取的存量元数据和增量元数据进行整合,形成待分级的元数据;判断待分级的元数据是否存在中文字段和中文描述,对中文字段和中文描述进行N

Gram分词处理,对于缺失中文信息的待分级的元数据,将其翻译成中文字段和中文描述,对经过翻译处理的元数据进行N

Gram分词处理,形成元数据对应的综合词集合,并对形成的综合词集合进行清洗处理,其中,综合词集合包括2字词子集、3字词子集和4字词子集,且每个子集分别包括一个或多个元素;对待分级的元数据对应的不同的分级标准进行N

Gram分词处理分别得到不同的分级标准分别对应的企业分级标准词集合,其中,企业分级标准词集合包括2字词子集、3字词子集和4字词子集;对综合词集合中的子集中的元素分别分配不同的位置权重,获取综合词集合与企业分级标准词集合中相同类型子集之间的交集和并集,并获取交集中的所有元素以及并集中元素的个数,并对交集中的所有元素各自对应的位置权重进行求和处理,基于求和处理结果获取综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数;从综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数开始判断,在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数不全为0时,将最大的Jaccard系数对应的企业分级标准词集合的分级标准的级别作为元数据的等级;在综合词集合与企业分级标准词集合中4字词子集之间的Jaccard系数全为0时,判断综合词集合与企业分级标准词集合中3字词子集之间的Jaccard系数是否全为0,重复以上步骤,获取待分级的元数据的等级。2.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,在判断综合词集合与企业分级标准词集合中相同类型子集之间的Jaccard系数均全为0时,则将待分级的元数据写入文件中,进行人工核查分级。3.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,通过执行SQL语句或采用数据库工具连接到数据库上,获取数据库中存量元数据。4.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,通过监听数据库变更事件来采集增量元数据。5.根据权利要求4所述的基于加权Jaccard系数的元数据分级方法,其特征在于,所述数据库变更事件包括增加表、列元素或修改表、列元素。6.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,通过非空判断、字符长度阈值判断或正则匹配判断待分级的元数据是否存在中文字段和中文描述。7.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,对形成的综合词集合进行清洗处理包括:对形成的综合词集合进行停用词过滤,并将经过停用词过滤处理后的综合词集合中子集中的专有名词以及数据术语通过内部知识库匹配方式进行合并和标注。8.根据权利要求1所述的基于加权Jaccard系数的元数据分级方法,其特征在于,位置权重的公式为:ω
i
=k
i
,其中,i为综合词集合中子集中的元素在综合词集合中位置顺序,i=
1,2,3,...n,n为位置顺序的总数,ω<...

【专利技术属性】
技术研发人员:吴文琴张心宇牛冠杰陈朝华邢海涛
申请(专利权)人:联通在线信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1