【技术实现步骤摘要】
一种基于图搜索技术的数据表关联关系分类方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种基于图搜索技术的数据表关联关系分类方法和装置。
技术介绍
[0002]关联型数据表格式是目前主流的数据存储方式之一,使用机器学习方法等研究基于关联型数据表存储数据潜在规律的必要环节之一是显示表示出关联型数据表之间的关联关系,以及关联字段。基于此关联关系和关联字段,关联型数据表可实现自动聚合。目前,获取关联型数据表关联关系的主要方式有场景经验导引和基于单张数据表字段统计结果的人工分类。第一种方法是人工参与的、基于业务逻辑确定关联型数据表之间的关联关系,业务逻辑往往是基于某种特定业务场景固定不变的,不同的业务逻辑需要人工重复参与关联型数据表关联关系的认定,这种基于场景经验的关联型数据表关联关系认定方法不具有横向扩展性,难以将数据处理经验推广到其他业务场景,对数据处理人员的业务背景要求比较高;第二种处理关联型数据表关联关系的方法从关联型数据表字段统计结果出发,经过考虑统计分类字段,构建表格之间的关联关系,此过程需要对关联型数据表中每一张表格进行字段统计分析,并人工尝试构建单张数据表之间可能的关联途径,并通过与业务人员的沟通,确定最终使用的关联型数据表的关联关系。此过程尝试尽量少的依赖业务经验,实现关联型数据表关联关系确定方案的可扩展性,此方法的弊端在于人工工作量大,构造的可行性关联关系种类有限,无法完整的展示出全部可行的关联关系分类,难以应对关联型数据表关联关系局部化要求。
技术实现思路
[0003]本专 ...
【技术保护点】
【技术特征摘要】
1.一种基于图搜索技术的数据表关联关系分类方法,其特征在于,包含以下步骤:步骤一:将关联型数据表的字段分类汇总表拆分得到单条关联型数据表集合T;并根据单条关联型数据表集合T内各个单条关联型数据表的主键与其他字段之间的关系,构建单条关联型数据表之间的2
‑
项关联关系集合R;步骤二:对所述2
‑
项关联关系集合R进行全连接性检查:若2
‑
项关联关系集合R具有全连接性,则单条关联型数据表集合T中属于同一个兄弟关系的单条关联型数据表进行聚合操作,生成新的单条关联型数据表集合T
′
,并更新2
‑
项关联关系集合R得到更新后的2
‑
项关联关系集合R
*
,生成对应的有向图表示;若2
‑
项关联关系集合R不具有全连接性则补充更多信息;步骤三:搜索得到单条关联型数据表集合T
′
的主表;步骤四:对单条关联型数据表集合T
′
的主表的数据表列表进行分类,将主表的数据表列表转化为层次化结构;基于层次化结构,从最后一层开始,依次检查相同层的单条关联型数据表的对应父表的多样性,对占据不同层次的父表,删除经历节点数较多的路径,更新层次化结构,得到更新后的层次化结构;基于更新后的层次化结构,构建多路径循环集合;根据主表的数据表列表、更新后的层次化结构以及多路径循环集合,得到单条关联型数据表集合T
′
对应的多种关系分类集合;步骤五:选择任意一种关系分类集合,对单条关联型数据表集合T
′
进行聚合,输出单条关联型数据表集合T
′
的最终聚合数据表。2.根据权利要求1所述的一种基于图搜索技术的数据表关联关系分类方法,其特征在于,所述步骤一具体为:(1.1)将关联型数据表的字段分类汇总表拆分为N条单条关联型数据表,得到单条关联型数据表集合T={T1,T2,
…
,T
m
,
…
,T
N
},其中,下标m是序数,m=1,2,
…
m,
…
N,T
m
表示第m条单条关联型数据表;并对每一条单条关联型数据表进行向量化,得到向量表示集合单条关联型数据表;并对每一条单条关联型数据表进行向量化,得到向量表示集合表示第m条单条关联型数据表T
m
的向量表示;所述向量表示具体为:其中,T_m表示单条关联型数据表T
m
的表名,KEY_m表示单条关联型数据表T
m
的主键,FEATURES_m表示单条关联型数据表T
m
的其他字段;对每一个向量表示进行向量化分,分为和(1.2)判定单条关联型数据表集合T={T1,T2,
…
,T
m
,
…
,T
N
}中任意两条单条关联型数据表之间的关联关系,构造2
‑
项关联关系集合R:其中,T
i
和T
j
是任意单条关联型数据表,若单条关联型数据表T
i
和T
j
的关联关系由兄弟关系组成,则满足表示为T
i
‑
T
j
;若单条关联型数据表T
i
和T
j
的关联关系由父子关系组成,则满足表示为T
i
→
T
j
。3.根据权利要求1所述的一种基于图搜索技术的数据表关联关系分类方法,其特征在于,所述步骤二具体为:(2.1)对步骤(1.2)生成的2
‑
项关联关系集合R进行全连接性检查,所述全连接性表示所有单条关联型数据表可通过兄弟关系或父子关系连接;若2
‑
项关联关系集合R具有全连接性则进行步骤(2.2);若2
‑
项关联关系集合R不具有全连接性则补充更多信息;
(2.2)根据2
‑
项关联关系集合R将单条关联型数据表集合T={T1,T2,
…
,T
m
,
…
,T
N
}中属于同一个兄弟关系的单条关联型数据表进行聚合操作,得到新的单条关联型数据表集合T
′
={T1′
,T2′
,
…
,T
n
′
,
…
},其中,T
n
′
表示由同一个兄弟关系的单条关联型数据表进行聚合操作后得到的新的单条关联型数据表;并对2
‑
项关联关系集合R进行更新,得到更新后的2
‑
项关联关系集合R
*
:R
*
={T
a
′→
T
b
′
},其中,T
a
′
和T
b
′
表示单条关联型数据表集合T
′
中任意单条关联型数据表;T
a
′→
T
b
′
表示单条关联型数据表T
a
′
是单条关联型数据表T
a
′
的子表;(2.3)根据更新后的2
‑
项关联关系集合R
*
,将单条关联型数据表集合T
′
中每条关联型数据表之间的父子关系映射为图连接形式,并采用箭头从子表指向父表得到有向图表示;所述有向图表示包括节点和箭头,节点表示每个单条关联型数据表的表名,箭头方向是从子表到父表;根据有向图表示,得到相对应的有向图节点信息列表,所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。