一种基于自动识别技术的元数据分类方法、存储介质及系统技术方案

技术编号:38359725 阅读:10 留言:0更新日期:2023-08-05 17:29
本发明专利技术提供一种基于自动识别技术的元数据分类方法、存储介质及系统,该方法包括划分字段元数据的敏感类型以及划分表元数据的主题,在划分字段元数据的敏感类型以及划分表元数据的主题的过程中,业务人员只需对部分字段元数据进行敏感类型划分、对部分表元数据进行主题划分,然后系统就可基于已训练的二分器模型对剩余字段元数据自动进行敏感类型划分、基于已训练的词向量模型对剩余表元数据自动进行主题划分,这与由业务人员全程人工对元数据进行分类梳理录入的传统元数据分类方法相比省时省力。省时省力。省时省力。

【技术实现步骤摘要】
一种基于自动识别技术的元数据分类方法、存储介质及系统


[0001]本专利技术涉及数据处理
,特别涉及一种基于自动识别技术的元数据分类方法、存储介质及系统。

技术介绍

[0002]在数字化转型深入推进的大背景下,数据已经成为增强企业竞争力的核心要素。元数据是企业中用来描述数据的数据,相当于企业数据的DNA,它描述了数据属性的信息和反映了数据的交易、实践、对象以及关系。元数据通过描述数据的来源、存储情况、使用情况、业务含义、转换规则、数据变更管理以及数据管理人员等相关信息,有效帮助了技术开发人员和业务人员提高工作效率,缩短研发周期,确保各IT系统高效准确地运转。
[0003]数字化时代,如何加强数据管理,释放数据要素价值,已经成为各行各业高度重视的基础性工作。提升数据管理能力已经成为推动企业数字化转型,促进数字经济发展的重中之重。企业想要知道他们手中拥有的数据质量怎么样、数据的生命周期是多久,哪些数据的安全性和隐私性需要保护以及谁能使用这些数据,怎么去使用
……
这些问题都需要通过元数据管理来解决,如果缺乏有效的元数据管理,那么企业的数据资产有可能会变成企业增收盈利的负担。元数据分类是元数据管理中的基础组件,在企业有相关数据的情况下,针对元数据内容进行整理归类,能够更好地去协助元数据管理相关工作。元数据分类一般需要划分字段元数据的敏感类型以及表元数据的主题,但由于字段元数据一般比较复杂且无统一命名规则,而表元数据内容一般比较混乱,难以使用自动化元数据分类方法进行准确分类,故传统的元数据分类方法一般是业务人员全程人工对表元数据及字段元数据进行分类梳理录入,费时费力。

技术实现思路

[0004]本专利技术要解决的技术问题是如何缩减对元数据进行分类的人工及耗时。
[0005]为解决上述技术问题,本专利技术提供一种基于自动识别技术的元数据分类方法,包括如下步骤:
[0006]A.划分字段元数据的敏感类型,具体包括如下步骤A1~A5;
[0007]A1.从数据仓库存储的多项表元数据中选取需要划分敏感类型的字段元数据,根据所述字段元数据从数据仓库存储的多项表元数据中找出相关联的多项具体信息;
[0008]A2.获取业务人员根据业务经验和/或业务规则对所述字段元数据的部分具体信息进行敏感类型划分的结果,该结果包括敏感和不敏感;
[0009]A3.将已划分敏感类型的部分具体信息按预设比例划分为第一训练集数据和第一测试集数据,然后对各个第一训练集数据进行文本预处理操作,所述文本预处理操作包括分词操作和去除停用词操作;
[0010]A4.计算各个第一训练集数据和各个第一测试集数据的特征权重,根据各个第一训练集数据的特征权重生成训练输入向量,根据各个第一测试集数据的特征权重生成测试
输入向量,然后将各个训练输入向量和各个测试输入向量输入到基于SVM支持向量机的二分器模型中进行训练,得到已训练的二分器模型,再利用已训练的二分器模型中对所述字段元数据的剩余具体信息进行敏感类型划分,划分结果包括敏感和不敏感;
[0011]A5.获取所述字段元数据的全部具体信息各自划分的敏感类型,统计敏感类型为敏感的具体信息占比,若所述占比不小于预设阈值,则将所述字段元数据划分为敏感字段,若所述占比小于预设阈值,则将所述字段元数据划分为不敏感字段;
[0012]B.划分表元数据的主题,具体包括如下步骤B1~B5;
[0013]B1.从数据仓库中获取多项表元数据,并获取业务人员根据业务应用分类对部分表元数据进行主题划分的结果;
[0014]B2.将已划分主题的部分表元数据按预设比例划分为第二训练集数据和第二测试集数据,然后对各个第二训练集数据进行文本预处理操作,所述文本预处理操作包括合并字符串、分词操作和去除停用词操作,再将各个第二训练集数据和各个第二测试集数据输入到基于word2vec语料库的词向量模型中进行训练,得到已训练的词向量模型;
[0015]B3.获取预设的多个主题域,并获取业务人员根据业务经验针对各个主题域从数据仓库中选取的代表性表元数据,然后计算每个代表性表元数据中的各个词汇的特征权重,选取特征权重大小排在预设名次前的多个词汇作为该代表性表元数据所属的主题域下需要进行向量化的中心词,再将各个中心词输入到已训练的词向量模型中从而获取各个中心词的向量化表示方式,得到多个中心词向量;
[0016]B4.对剩余表元数据进行文本预处理操作,所述文本预处理操作包括合并字符串、分词操作和去除停用词操作,从而得到剩余表元数据的字符串分词结果;
[0017]B5.对每个剩余表元数据,计算其字符串分词结果与各个中心词向量之间的余弦相似度,得到余弦相似度最大值,然后获取该余弦相似度最大值对应的中心词向量所属的主题域,将该剩余表元数据划分在该主题域内。
[0018]优选地,所述步骤A4中,计算特征权重具体地:获取进行分词操作后得到的多个词语,计算各个词语的TFIDF值,具体公式如下:
[0019]TFIDF=TF
×
log(n/(m+1));
[0020]其中,TF表示词语的词频,n表示字段元数据下的所有具体信息总数,m表示段元数据下包含该词语的具体信息数量。
[0021]优选地,所述步骤A4中,对基于SVM支持向量机的二分器模型进行训练具体地:采用k

fold交叉验证方法找出基于SVM支持向量机的二分器模型的最优参数,然后用该最优参数重新设置基于SVM支持向量机的二分器模型,得到已训练的二分器模型。
[0022]优选地,所述步骤A4中,采用k

fold交叉验证方法找出基于SVM支持向量机的二分器模型的最优参数具体包括:
[0023]第一步,确定需要进行最优参数选择的参数为松弛系数的惩罚项系数C、核函数的系数gamma和核函数的选择kernel,然后根据这些参数的取值范围随机产生一组{C,gamma,kernel}作为粒子的初始位置;
[0024]第二步:把某个训练输入向量平均分割成k个互不包含的子集S1,S2,

,Sk;
[0025]第三步:初始化e=1;
[0026]第四步:将训练输入向量中的某个子集Se留作检验集,其余的子集合并起来作为
训练集,用这些训练集来训练二分器模型;
[0027]第五步:利用测试输入向量对二分器模型进行测试,得到第Se个子集的综合性能评价指标值f
e

[0028]第六步:令e=e+1;
[0029]第七步:重复第四步和第五步,直到e=k,记录每个e所对应的综合性能评价指标值f
e

[0030]第八步:计算这一组{C,gamma,kernel}的泛化综合评价分数F,泛化综合评价分数F即是每个e所对应的综合性能评价指标值f
e
的加和平均值,具体公式如下所示:
[0031][0032]第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自动识别技术的元数据分类方法,其特征是,包括如下步骤:A.划分字段元数据的敏感类型,具体包括如下步骤A1~A5;A1.从数据仓库存储的多项表元数据中选取需要划分敏感类型的字段元数据,根据所述字段元数据从数据仓库存储的多项表元数据中找出相关联的多项具体信息;A2.获取业务人员根据业务经验和/或业务规则对所述字段元数据的部分具体信息进行敏感类型划分的结果,该结果包括敏感和不敏感;A3.将已划分敏感类型的部分具体信息按预设比例划分为第一训练集数据和第一测试集数据,然后对各个第一训练集数据进行文本预处理操作,所述文本预处理操作包括分词操作和去除停用词操作;A4.计算各个第一训练集数据和各个第一测试集数据的特征权重,根据各个第一训练集数据的特征权重生成训练输入向量,根据各个第一测试集数据的特征权重生成测试输入向量,然后将各个训练输入向量和各个测试输入向量输入到基于SVM支持向量机的二分器模型中进行训练,得到已训练的二分器模型,再利用已训练的二分器模型中对所述字段元数据的剩余具体信息进行敏感类型划分,划分结果包括敏感和不敏感;A5.获取所述字段元数据的全部具体信息各自划分的敏感类型,统计敏感类型为敏感的具体信息占比,若所述占比不小于预设阈值,则将所述字段元数据划分为敏感字段,若所述占比小于预设阈值,则将所述字段元数据划分为不敏感字段;B.划分表元数据的主题,具体包括如下步骤B1~B5;B1.从数据仓库中获取多项表元数据,并获取业务人员根据业务应用分类对部分表元数据进行主题划分的结果;B2.将已划分主题的部分表元数据按预设比例划分为第二训练集数据和第二测试集数据,然后对各个第二训练集数据进行文本预处理操作,所述文本预处理操作包括合并字符串、分词操作和去除停用词操作,再将各个第二训练集数据和各个第二测试集数据输入到基于word2vec语料库的词向量模型中进行训练,得到已训练的词向量模型;B3.获取预设的多个主题域,并获取业务人员根据业务经验针对各个主题域从数据仓库中选取的代表性表元数据,然后计算每个代表性表元数据中的各个词汇的特征权重,选取特征权重大小排在预设名次前的多个词汇作为该代表性表元数据所属的主题域下需要进行向量化的中心词,再将各个中心词输入到已训练的词向量模型中从而获取各个中心词的向量化表示方式,得到多个中心词向量;B4.对剩余表元数据进行文本预处理操作,所述文本预处理操作包括合并字符串、分词操作和去除停用词操作,从而得到剩余表元数据的字符串分词结果;B5.对每个剩余表元数据,计算其字符串分词结果与各个中心词向量之间的余弦相似度,得到余弦相似度最大值,然后获取该余弦相似度最大值对应的中心词向量所属的主题域,将该剩余表元数据划分在该主题域内。2.根据权利要求1所述的基于自动识别技术的元数据分类方法,其特征是,所述步骤A4中,计算特征权重具体地:获取进行分词操作后得到的多个词语,计算各个词语的TFIDF值,具体公式如下:TFIDF=TF
×
log(n/(m+1));其中,TF表示词语的词频,n表示字段元数据下的所有具体信息总数,m表示段元数据下
包含该词语的具体信息数量。3.根据权利要求1所述的基于自动识别技术的元数据分类方法,其特征是,所述步骤A4中,对基于SVM支持向量机的二分器...

【专利技术属性】
技术研发人员:虞伟陈燕梁永文
申请(专利权)人:广东南方财经控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1