当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于图搜索技术的数据表关联关系分类方法和装置制造方法及图纸

技术编号:37062723 阅读:18 留言:0更新日期:2023-03-29 19:41
本发明专利技术公开了一种基于图搜索技术的数据表关联关系分类方法和装置,该方法依赖于数据表字段统计分类结果,构建了基于有向图表示的关联型数据表关联关系集合,并关联型数据表之间的关联关系进行可视化图展示。该方法运用图搜索技术构建关联型数据表关联关系集合,基于设定主表,构建了用于关联型数据表聚合的关联关系分类。该方法支持对数据表全连接性的检查,实现了关联型数据表关联关系的自动化生成。同时,该方法可自动定位主表位置,确定关联型数据表聚合的连接字段。该方法的主要创新点在于使用有向图表示关联型数据表之间的关联关系,借助图搜索算法寻找关联型数据表之间的关联关系。关联关系。关联关系。

【技术实现步骤摘要】
一种基于图搜索技术的数据表关联关系分类方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种基于图搜索技术的数据表关联关系分类方法和装置。

技术介绍

[0002]关联型数据表格式是目前主流的数据存储方式之一,使用机器学习方法等研究基于关联型数据表存储数据潜在规律的必要环节之一是显示表示出关联型数据表之间的关联关系,以及关联字段。基于此关联关系和关联字段,关联型数据表可实现自动聚合。目前,获取关联型数据表关联关系的主要方式有场景经验导引和基于单张数据表字段统计结果的人工分类。第一种方法是人工参与的、基于业务逻辑确定关联型数据表之间的关联关系,业务逻辑往往是基于某种特定业务场景固定不变的,不同的业务逻辑需要人工重复参与关联型数据表关联关系的认定,这种基于场景经验的关联型数据表关联关系认定方法不具有横向扩展性,难以将数据处理经验推广到其他业务场景,对数据处理人员的业务背景要求比较高;第二种处理关联型数据表关联关系的方法从关联型数据表字段统计结果出发,经过考虑统计分类字段,构建表格之间的关联关系,此过程需要对关联型数据表中每一张表格进行字段统计分析,并人工尝试构建单张数据表之间可能的关联途径,并通过与业务人员的沟通,确定最终使用的关联型数据表的关联关系。此过程尝试尽量少的依赖业务经验,实现关联型数据表关联关系确定方案的可扩展性,此方法的弊端在于人工工作量大,构造的可行性关联关系种类有限,无法完整的展示出全部可行的关联关系分类,难以应对关联型数据表关联关系局部化要求。

技术实现思路

[0003]本专利技术的目的在于针对现有技术的不足,提供了一种基于图搜索技术的数据表关联关系分类方法和装置。
[0004]本专利技术的目的是通过以下技术方案来实现的:一种基于图搜索技术的数据表关联关系分类方法,包括以下步骤:
[0005]步骤一:将关联型数据表的字段分类汇总表拆分得到单条关联型数据表集合T;并根据单条关联型数据表集合T内各个单条关联型数据表的主键与其他字段之间的关系,构建单条关联型数据表之间的2

项关联关系集合R;
[0006]步骤二:对所述2

项关联关系集合R进行全连接性检查:若2

项关联关系集合R具有全连接性,则单条关联型数据表集合T中属于同一个兄弟关系的单条关联型数据表进行聚合操作,生成新的单条关联型数据表集合T

,并更新2

项关联关系集合R得到更新后的2

项关联关系集合R
*
,生成对应的有向图表示;若2

项关联关系集合R不具有全连接性则补充更多信息;
[0007]步骤三:搜索得到单条关联型数据表集合T

的主表;
[0008]步骤四:对单条关联型数据表集合T

的主表的数据表列表进行分类,将主表的数
据表列表转化为层次化结构;基于层次化结构,从最后一层开始,依次检查相同层的单条关联型数据表的对应父表的多样性,对占据不同层次的父表,删除经历节点数较多的路径,更新层次化结构,得到更新后的层次化结构;基于更新后的层次化结构,构建多路径循环集合;根据主表的数据表列表、更新后的层次化结构以及多路径循环集合,得到单条关联型数据表集合T

对应的多种关系分类集合;
[0009]步骤五:选择任意一种关系分类集合,对单条关联型数据表集合T

进行聚合,输出单条关联型数据表集合T

的最终聚合数据表。
[0010]进一步地,所述步骤一具体为:
[0011](1.1)将关联型数据表的字段分类汇总表拆分为N条单条关联型数据表,得到单条关联型数据表集合T={T1,T2,

,T
m


,T
N
},其中,下标m是序数,m=1,2,

m,

N,T
m
表示第m条单条关联型数据表;并对每一条单条关联型数据表进行向量化,得到向量表示集合m条单条关联型数据表;并对每一条单条关联型数据表进行向量化,得到向量表示集合表示第m条单条关联型数据表T
m
的向量表示;所述向量表示具体为:其中,T_m表示单条关联型数据表T
m
的表名,KEY_m表示单条关联型数据表T
m
的主键,FEATURES_m表示单条关联型数据表T
m
的其他字段;
[0012]对每一个向量表示进行向量化分,分为和
[0013](1.2)判定单条关联型数据表集合T={T1,T2,

,T
m


,T
N
}中任意两条单条关联型数据表之间的关联关系,构造2

项关联关系集合其中,T
i
和T
j
是任意单条关联型数据表,若单条关联型数据表T
i
和T
j
的关联关系由兄弟关系组成,则满足表示为T
i

T
j
;若单条关联型数据表T
i
和T
j
的关联关系由父子关系组成,则满足表示为T
i

T
j

[0014]进一步地,所述步骤二具体为:
[0015](2.1)对步骤(1.2)生成的2

项关联关系集合R进行全连接性检查,所述全连接性表示所有单条关联型数据表可通过兄弟关系或父子关系连接;若2

项关联关系集合R具有全连接性则进行步骤(2.2);若2

项关联关系集合R不具有全连接性则补充更多信息;
[0016](2.2)根据2

项关联关系集合R将单条关联型数据表集合T={T1,T2,

,T
m


,T
N
}中属于同一个兄弟关系的单条关联型数据表进行聚合操作,得到新的单条关联型数据表集合T

={T1′
,T2′


,T
n



},其中,T
n

表示由同一个兄弟关系的单条关联型数据表进行聚合操作后得到的新的单条关联型数据表;
[0017]并对2

项关联关系集合R进行更新,得到更新后的2

项关联关系集合R
*
:R
*
={T
a
′→
T
b

},其中,T
a

和T
b

表示单条关联型数据表集合T

中任意单条关联型数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图搜索技术的数据表关联关系分类方法,其特征在于,包含以下步骤:步骤一:将关联型数据表的字段分类汇总表拆分得到单条关联型数据表集合T;并根据单条关联型数据表集合T内各个单条关联型数据表的主键与其他字段之间的关系,构建单条关联型数据表之间的2

项关联关系集合R;步骤二:对所述2

项关联关系集合R进行全连接性检查:若2

项关联关系集合R具有全连接性,则单条关联型数据表集合T中属于同一个兄弟关系的单条关联型数据表进行聚合操作,生成新的单条关联型数据表集合T

,并更新2

项关联关系集合R得到更新后的2

项关联关系集合R
*
,生成对应的有向图表示;若2

项关联关系集合R不具有全连接性则补充更多信息;步骤三:搜索得到单条关联型数据表集合T

的主表;步骤四:对单条关联型数据表集合T

的主表的数据表列表进行分类,将主表的数据表列表转化为层次化结构;基于层次化结构,从最后一层开始,依次检查相同层的单条关联型数据表的对应父表的多样性,对占据不同层次的父表,删除经历节点数较多的路径,更新层次化结构,得到更新后的层次化结构;基于更新后的层次化结构,构建多路径循环集合;根据主表的数据表列表、更新后的层次化结构以及多路径循环集合,得到单条关联型数据表集合T

对应的多种关系分类集合;步骤五:选择任意一种关系分类集合,对单条关联型数据表集合T

进行聚合,输出单条关联型数据表集合T

的最终聚合数据表。2.根据权利要求1所述的一种基于图搜索技术的数据表关联关系分类方法,其特征在于,所述步骤一具体为:(1.1)将关联型数据表的字段分类汇总表拆分为N条单条关联型数据表,得到单条关联型数据表集合T={T1,T2,

,T
m
,

,T
N
},其中,下标m是序数,m=1,2,

m,

N,T
m
表示第m条单条关联型数据表;并对每一条单条关联型数据表进行向量化,得到向量表示集合单条关联型数据表;并对每一条单条关联型数据表进行向量化,得到向量表示集合表示第m条单条关联型数据表T
m
的向量表示;所述向量表示具体为:其中,T_m表示单条关联型数据表T
m
的表名,KEY_m表示单条关联型数据表T
m
的主键,FEATURES_m表示单条关联型数据表T
m
的其他字段;对每一个向量表示进行向量化分,分为和(1.2)判定单条关联型数据表集合T={T1,T2,

,T
m
,

,T
N
}中任意两条单条关联型数据表之间的关联关系,构造2

项关联关系集合R:其中,T
i
和T
j
是任意单条关联型数据表,若单条关联型数据表T
i
和T
j
的关联关系由兄弟关系组成,则满足表示为T
i

T
j
;若单条关联型数据表T
i
和T
j
的关联关系由父子关系组成,则满足表示为T
i

T
j
。3.根据权利要求1所述的一种基于图搜索技术的数据表关联关系分类方法,其特征在于,所述步骤二具体为:(2.1)对步骤(1.2)生成的2

项关联关系集合R进行全连接性检查,所述全连接性表示所有单条关联型数据表可通过兄弟关系或父子关系连接;若2

项关联关系集合R具有全连接性则进行步骤(2.2);若2

项关联关系集合R不具有全连接性则补充更多信息;
(2.2)根据2

项关联关系集合R将单条关联型数据表集合T={T1,T2,

,T
m
,

,T
N
}中属于同一个兄弟关系的单条关联型数据表进行聚合操作,得到新的单条关联型数据表集合T

={T1′
,T2′
,

,T
n

,

},其中,T
n

表示由同一个兄弟关系的单条关联型数据表进行聚合操作后得到的新的单条关联型数据表;并对2

项关联关系集合R进行更新,得到更新后的2

项关联关系集合R
*
:R
*
={T
a
′→
T
b

},其中,T
a

和T
b

表示单条关联型数据表集合T

中任意单条关联型数据表;T
a
′→
T
b

表示单条关联型数据表T
a

是单条关联型数据表T
a

的子表;(2.3)根据更新后的2

项关联关系集合R
*
,将单条关联型数据表集合T

中每条关联型数据表之间的父子关系映射为图连接形式,并采用箭头从子表指向父表得到有向图表示;所述有向图表示包括节点和箭头,节点表示每个单条关联型数据表的表名,箭头方向是从子表到父表;根据有向图表示,得到相对应的有向图节点信息列表,所...

【专利技术属性】
技术研发人员:陈奎那崇宁张泷卢冰洁
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1