基于数据血缘关系的数据表自动打标签方法及其应用技术

技术编号：39832301 阅读：23 留言：0更新日期：2023-12-29 16:15

本申请提出了基于数据血缘关系的数据表自动打标签方法及其应用，包括从原始数据中提取有效数据；采用有效数据，基于图数据库，以表为具体的图数据库节点，数据库节点间的连线为数据开发的任务配置信息，形成基于表级别的数据血缘关系图；基于表信息和数据血缘关系图计算每个备选数据表与基础数据表的表间最终相似度；根据表间最终相似度的相似度阈值对数据进行分类，当表间最终相似度超过设定阈值，则对每个备选数据表进行自动打标签，该标签与基础数据表一致；比对已知标签的数据，验证自动打上的标签；以可视化的方式提供标签的管理和应用操作

全部详细技术资料下载

【技术实现步骤摘要】
基于数据血缘关系的数据表自动打标签方法及其应用

[0001]本申请涉及数据处理
，特别是涉及一种基于数据血缘关系的数据表自动打标签方法及其应用
。

技术介绍

[0002]数据标签是指在数据处理过程中为数据添加的一种附加信息，在企业应用的市场前景非常广阔，随着大数据技术的发展，数据标签可以帮助企业更好地收集
、
管理
、
分析数据，有助于企业更加清晰地了解客户，提升客户体验，从而提高企业的竞争力
。
常见的应用场景包括用户画像分析
、
智能推荐
、
精准营销等，而打标签是进行数据标签分析的前置步骤和核心环节，打标签的准确性对标签分析结果的影响是至关重要的
。
[0003]现有的数据表打标签技术主要依赖于人工操作和判断，通常是人为根据经验进行判断，相关的表属于同类业务属性进行打标签操作
。
这些方法不仅效率低下，而且容易因为人为因素产生错误标签
。
[0004]因此，亟待一种基于数据血缘关...

【技术保护点】

【技术特征摘要】
1.
基于数据血缘关系的数据表自动打标签方法，其特征在于，包括以下步骤：
S00、
从原始数据中提取有效数据；其中，所述有效数据为各种数据库表，以选定的数据库表作为基础数据表，未选定的数据库表作为备选数据表；
S10、
采用所述有效数据，基于图数据库，以表为具体的图数据库节点，数据库节点间的连线为数据开发的任务配置信息，形成基于表级别的数据血缘关系图；
S20、
基于表信息和所述数据血缘关系图计算每个所述备选数据表与所述基础数据表的表间最终相似度；其中，表信息至少包括表字段名称
、
表字段备注
、
表名称
、
表备注；
S30、
根据所述表间最终相似度的相似度阈值对数据进行分类，当所述表间最终相似度超过设定阈值，则对每个备选数据表进行自动打标签，该标签与基础数据表一致；
S40、
比对已知标签的数据，验证自动打上的标签；
S50、
以可视化的方式提供标签的管理和应用操作
。2.
如权利要求1所述的基于数据血缘关系的数据表自动打标签方法，其特征在于，
S20
步骤中，所述表间最终相似度通过表字段相似度
、
表字段备注相似度
、
表名称相似度
、
表备注相似度加权以及血缘关系相似度加权计算得到
。3.
如权利要求2所述的基于数据血缘关系的数据表自动打标签方法，其特征在于，
S20
步骤中，通过所述数据血缘关系图得到所述血缘关系相似度
。4.
如权利要求3所述的基于数据血缘关系的数据表自动打标签方法，其特征在于，
S20
步骤中，通过所述数据血缘关系图获取备选数据表和基础数据表之间的血缘层级
n
，备选数据表和基础数据表之间的相似度距离为
1/n
，则血缘关系相似度的公式为：其中，
A
为基础数据表，
B
为备选数据表，
(A∩B)/(A∪B)
为
Tanimoto
系数
。5.
如权利要求4所述的基于数据血缘关系的数据表自动打标签方法，其特征在于，
S20
步骤中，所述表间最终相似度的公式为：其中，
p1为两张表的表名的最小编辑操作次数，
p2为两张表的表备注的最小编辑操作次数，
p3为两张表的表字段的最小编辑操作次数，
p4为两张表的表字段备注...

【专利技术属性】
技术研发人员：郁强，陶阳，任通，
申请(专利权)人：城云科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人