基于分布拟合的网络表格间的外键关系检测方法技术

技术编号:20589117 阅读:20 留言:0更新日期:2019-03-16 07:14
本发明专利技术提供了一种基于分布拟合的网络表格间的外键关系检测方法。该方法包括:检测网络表格间不同属性列之间的包含覆盖关系,根据包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对;构建候选外键关系对中候选外键和候选主键的多维分布图,计算出候选外键和候选主键的多维分布图之间的拟合度;根据候选外键和候选主键的多维分布图之间的拟合度判断候选外键关系对是否为真正的外键关系对。本发明专利技术既适用于字符类型的外键关系检测,也适用于数字类型的外键关系检测,既能检测单列的外键关系,也能检测多列的外键关系,在具有较高的检测准确性的同时兼具较高的检测效率。

【技术实现步骤摘要】
基于分布拟合的网络表格间的外键关系检测方法
本专利技术涉及网络信息处理
,尤其涉及一种基于分布拟合的网络表格间的外键关系检测方法。
技术介绍
互联网上包含大量的结构化表格,为数据集成和检索提供了非常方便和丰富的数据集。为了增强网络表格间的联系和有效利用网络上公开的表格数据,Anish等人试图探测网络表格间潜在的关系,并找到关联表格。而外键关系作为数据库中最重要的约束之一,对于模式设计者来说是非常有价值的,可以用来指定两个语义相关的表格。然而对于来自异构数据源的大量的网络表格,在大多数情况下不会指定外键。因此,发现外键关系是理解和利用网络表格的重要步骤。目前,现有技术中的外键关系检测方法大都集中于识别表格间的包含依赖关系。但是,仅仅通过包含覆盖来检测外键关系是不够的,最直接的方法是找到真正外键关系应该满足的重要特征。AlexandraRostin等人提出了一些规则,例如列名相似度、列值平均长度、列值的唯一性和覆盖率等一系列特征,并以此来发现传统关系表上的单列外键关系。但是,对于存在模式信息缺失和噪声数据的网络表格,以上方法并不适用。MeihuiZhang等人提出利用随机性来替代上述外键关系应满足的一系列规则,并将其应用到了单列和多列外键关系检测中。该方法仅通过属性列列值的分布评估两列数据分布的随机性,并且利用随机性的大小来筛选真正的外键关系。在该方法中,EarthMover'sDistance(EMD,搬土距离)被用来衡量外键中的一组属性值转移到主键中另一组属性值集合上所需要的工作量,并以此值标示随机性大小。当外键值仅在主键的某个区域内均匀分布时,EMD仍会被计算为一个很小的值。上述现有技术中的外键关系检测方法存在的问题如下:(1)由于网络表格并不规范,数据会存在噪声及表头缺失的问题,目前大部分依靠表格结构特征的外键检测方法只适用于传统关系表,并不适用于网络表格。(2)目前的外键检测算法大都只适用于字符型外键关系的检测,并不适用于数字型外键关系的检测。(3)目前的外键检测算法是对单列外键关系进行检测,或者,通过随机性进行多列外键关系检测,这些方法并不能保证外键在主键中分布的随机性,由于不能解决局部随机性问题,效果并不理想。
技术实现思路
本专利技术实施例提供了一种基于分布拟合的网络表格间的外键关系检测方法,以克服现有技术的问题。为了实现上述目的,本专利技术采取了如下技术方案。一种基于分布拟合的网络表格间的外键关系检测方法,包括:检测网络表格间不同属性列之间的包含覆盖关系,根据所述包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对;构建所述候选外键关系对中候选外键和候选主键的多维分布图,计算出所述候选外键和候选主键的多维分布图之间的拟合度;根据所述候选外键和候选主键的多维分布图之间的拟合度判断所述候选外键关系对是否为真正的外键关系对。进一步地,所述的检测网络表格间不同属性列之间的包含覆盖关系,根据所述包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对,包括:将待检测的网络表格集合中的表格按照列存储到列集合中,对所述列集合中的字符型属性列进行模糊匹配,对所述列集合中的数字型属性列进行数值匹配,根据所述模糊匹配和数值匹配的匹配结果查找出所述列集合中的所有单列的属性对;从所有单列的属性对中检测出来自相同表格的多列的属性对,对于检测出的所有单列IND,查找是否存在n个来自同一个表格的属性列集合A包含于来自另一个表格的n个属性列的集合B,若存在,则将A与B组成的属性对作为多列IND;判断所有单列的属性对和多列的属性对是否满足设定的主键唯一性条件,所述设定的主键唯一性条件包括主键中的重复值小于设定的阈值λ,将满足所述设定的主键唯一性条件的单列的属性对和多列的属性对作为候选外键关系对,每个候选外键关系对包括候选外键F和候选主键P。进一步地,所述的构建所述候选外键关系对中候选外键和候选主键的多维分布图,包括:针对每个候选外键关系对,为候选外键F的每个列的列值进行排序,并获得该列中每个值的位置,将每列对应多维空间的一个维度,再对分布于每个维度上的每个列的列值的位置进行哈希映射,得到候选外键F的多维分布图;为候选主键P的每个列的列值进行排序,并获得该列中每个值的位置,将每列对应多维空间的一个维度,再对分布于每个维度上的每个列的列值的位置进行哈希映射,得到候选主键P的多维分布图。进一步地,所述的计算出所述候选外键和候选主键的多维分布图之间的拟合度,包括:对所述候选外键F和候选主键P的多维分布图进行分区;根据分区后的所述候选外键F和候选主键P的多维分布图,确定候选外键F中的值应该落入候选主键P的多维分布图的每个分区的个数,该个数称为理论频数,统计候选外键F中的值实际落入候选主键P的多维分布图的每个分区的实际个数,该实际个数称为观测频数,根据所述理论频数和观测频数计算出所述候选主键P和所述候选外键F的多维分布图之间的整体偏差;根据所述整体偏差确定所述候选外键F和候选主键P的两个多维分布图之间的拟合度。进一步地,所述的对所述候选外键F和候选主键P的多维分布图进行分区,包括:设定子空间的点数阈值s,对于每个k维多维分布图,在每个维度上将相应的区间划分成相等的两个部分,得到2k个子空间,将所述2k个子空间中点数超过阈值s的子空间继续划分为2k个子空间,将得到的点数超过阈值s的子空间继续进行划分,并且以这种方式迭代,直到每个子空间中的点数都小于或等于阈值s。进一步地,所述的根据分区后的所述候选外键F和候选主键P的多维分布图,确定候选外键F中的值应该落入候选主键P的多维分布图的每个分区的个数,该个数称为理论频数,统计候选外键F中的值实际落入候选主键P的多维分布图的每个分区的实际个数,该实际个数称为观测频数,根据所述理论频数和观测频数计算出所述候选主键P和所述候选外键F的多维分布图之间的整体偏差,包括:已知包含k列属性值的候选主键P的多维分布图G,令作为P在第i列的分区的集合,GP=F1×...Fk被定义为P的k维分区图,由n1×...×nk个k维子空间组成,用Nsub(GP)表示分区图GP中子空间的总数:候选外键F对应于GP的第t个子空间的观测频数被定义为F实际落在GP的第t个子空间的值的个数,通过将候选外键F第t个子空间中的属性值与P中第t个子空间中属性值进行匹配,并将其中匹配相同的属性值的个数记为观测频数候选外键F对应于GP的第t个子空间的理论频数被定义为F理论上应该落在GP的第t个子空间的值的个数,记为其中FNumall(F)表示候选外键F中所有值的个数,PNumt(P)表示GP中第t个子空间内的值的个数,PNumall(P)表示候选主键P中所有不同值的个数;所述候选主键P和所述候选外键F的多维分布图之间的整体偏差Dev(F,P)通过以下公式计算:进一步地,所述的根据所述整体偏差确定所述候选外键F和候选主键P的两个多维分布图之间的拟合度,包括:所述候选外键F和候选主键P的两个多维分布图之间的拟合度GOF(F,P)的计算公式如下:其中a是调整单调性的参数,a>1。进一步地,所述的根据所述候选外键和候选主键的多维分布图之间的拟合度判断所述候选外键关系对是否为真正的外键关系对,包括:如果所述候选外键F和所述候选主键本文档来自技高网
...

【技术保护点】
1.一种基于分布拟合的网络表格间的外键关系检测方法,其特征在于,包括:检测网络表格间不同属性列之间的包含覆盖关系,根据所述包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对;构建所述候选外键关系对中候选外键和候选主键的多维分布图,计算出所述候选外键和候选主键的多维分布图之间的拟合度;根据所述候选外键和候选主键的多维分布图之间的拟合度判断所述候选外键关系对是否为真正的外键关系对。

【技术特征摘要】
1.一种基于分布拟合的网络表格间的外键关系检测方法,其特征在于,包括:检测网络表格间不同属性列之间的包含覆盖关系,根据所述包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对;构建所述候选外键关系对中候选外键和候选主键的多维分布图,计算出所述候选外键和候选主键的多维分布图之间的拟合度;根据所述候选外键和候选主键的多维分布图之间的拟合度判断所述候选外键关系对是否为真正的外键关系对。2.根据权利要求1所述的方法,其特征在于,所述的检测网络表格间不同属性列之间的包含覆盖关系,根据所述包含覆盖关系的检测结果筛选出所述网络表格间的候选外键关系对,包括:将待检测的网络表格集合中的表格按照列存储到列集合中,对所述列集合中的字符型属性列进行模糊匹配,对所述列集合中的数字型属性列进行数值匹配,根据所述模糊匹配和数值匹配的匹配结果查找出所述列集合中的所有单列的属性对;从所有单列的属性对中检测出来自相同表格的多列的属性对,对于检测出的所有单列IND,查找是否存在n个来自同一个表格的属性列集合A包含于来自另一个表格的n个属性列的集合B,若存在,则将A与B组成的属性对作为多列IND;判断所有单列的属性对和多列的属性对是否满足设定的主键唯一性条件,所述设定的主键唯一性条件包括主键中的重复值小于设定的阈值λ,将满足所述设定的主键唯一性条件的单列的属性对和多列的属性对作为候选外键关系对,每个候选外键关系对包括候选外键F和候选主键P。3.根据权利要求2所述的方法,其特征在于,所述的构建所述候选外键关系对中候选外键和候选主键的多维分布图,包括:针对每个候选外键关系对,为候选外键F的每个列的列值进行排序,并获得该列中每个值的位置,将每列对应多维空间的一个维度,再对分布于每个维度上的每个列的列值的位置进行哈希映射,得到候选外键F的多维分布图;为候选主键P的每个列的列值进行排序,并获得该列中每个值的位置,将每列对应多维空间的一个维度,再对分布于每个维度上的每个列的列值的位置进行哈希映射,得到候选主键P的多维分布图。4.根据权利要求3所述的方法,其特征在于,所述的计算出所述候选外键和候选主键的多维分布图之间的拟合度,包括:对所述候选外键F和候选主键P的多维分布图进行分区;根据分区后的所述候选外键F和候选主键P的多维分布图,确定候选外键F中的值应该落入候选主键P的多维分布图的每个分区的个数,该个数称为理论频数,统计候选外键F中的值实际落入候选主键P的多维分布图的每个分区的实际个数,该实际个数称为观测频数,根据所述理论频数和观测频数计算出所述候选主键P和所述候选外键F的多维分布图...

【专利技术属性】
技术研发人员:王宁王佳敏
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1