一种基于近似图匹配算法的数据集成方法及系统技术方案

技术编号:32339037 阅读:14 留言:0更新日期:2022-02-16 18:47
本发明专利技术涉及一种基于近似图匹配算法的数据集成方法及系统。该方法包括将不同的数据模式分别进行图映射,确定相应的图结构;利用近似图匹配算法对所映射成的图进行图匹配,确定图结构之间的代价矩阵;根据图结构之间的代价矩阵确定图结构中节点的最优匹配序列;并根据最优匹配序列确定图编辑距离;根据最优匹配序列以及图编辑距离对图结构之间相应位置的节点进行集成。本发明专利技术能够提高异构数据的集成程度。度。度。

【技术实现步骤摘要】
一种基于近似图匹配算法的数据集成方法及系统


[0001]本专利技术涉及数据集成领域,特别是涉及一种基于近似图匹配算法的数据集成方法及系统。

技术介绍

[0002]在当前所处的数据爆炸时代下,大数据管理是正在面临的重要挑战之一,而在大数据管理的场景中,一个重要的问题就是数据集成。数据集成是协调数据源之间不匹配问题,将异构、分布、自治的数据集成在一起,为用户提供单一视图,可以透明的访问数据源。因此,对于异构数据的模式进行匹配和集成就尤为重要。数据集成领域早期研究方向主要是针对给定的数据源以及数据集,如何识别出描述相同属性,相同实体的数据表、数据列与元组之间的关联。在关联关系的挖掘方面,主要采用的是较为简单、基于字符串进行直接匹配,通过人工识别等方式完成。对于字段属性相似但字段名不一致的数据,如Name(姓名)与EmployeeName(员工姓名),集成程度较低。
[0003]因此。亟需一种新的数据集成方法或系统,以提高异构数据的集成程度。

技术实现思路

[0004]本专利技术的目的是提供一种基于近似图匹配算法的数据集成方法及系统,能够提高异构数据的集成程度。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种基于近似图匹配算法的数据集成方法,包括:
[0007]将不同的数据模式分别进行图映射,确定相应的图结构;
[0008]利用近似图匹配算法对所映射成的图进行图匹配,确定图结构之间的代价矩阵;
[0009]根据图结构之间的代价矩阵确定图结构中节点的最优匹配序列;并根据最优匹配序列确定图编辑距离;
[0010]根据最优匹配序列以及图编辑距离对图结构之间相应位置的节点进行集成。
[0011]可选地,所述将不同的数据模式分别进行图映射,确定相应的图结构,具体包括:
[0012]采用SQL2Graph工具,将不同的数据模式分别进行图映射,确定相应的图结构。
[0013]可选地,所述利用近似图匹配算法对所映射成的图进行图匹配,确定图结构之间的代价矩阵,具体包括:
[0014]根据不同数据模式映射的图结构,确定二分代价矩阵;
[0015]对所述二分代价矩阵进行简化构建SFBP代价矩阵。
[0016]可选地,所述根据图结构之间的代价矩阵确定图结构中节点的最优匹配序列;并根据最优匹配序列确定图编辑距离,具体包括:
[0017]在代价矩阵中采用引进元A
ij
替换规则;所述引进元A
ij
替换规则为相同的两个节点执行先插入再删除,或先删除再插入操作的代价值一致;其中i表示对一结构图中第i个节点进行删除操作,j表示在一结构图中插入另一结构图g中的第j个节点;
[0018]对采用引进元A
ij
替换规则后的代价矩阵,采用GLA算法,确定最优匹配序列。
[0019]可选地,所述根据最优匹配序列以及图编辑距离对图结构之间相应位置的节点进行集成,具体包括:
[0020]判断所述图编辑距离是否大于距离阈值;
[0021]若所述图编辑距离大于距离阈值,则不同的数据模式为不匹配,无法进行数据集成;
[0022]若所述图编辑距离小于或等于距离阈值,则根据所述最优匹配序列对结构图进行集成。
[0023]一种基于近似图匹配算法的数据集成系统,包括:
[0024]图结构确定模块,用于将不同的数据模式分别进行图映射,确定相应的图结构;
[0025]代价矩阵确定模块,用于利用近似图匹配算法对所映射成的图进行图匹配,确定图结构之间的代价矩阵;
[0026]最优匹配序列和图编辑距离确定模块,用于根据图结构之间的代价矩阵确定图结构中节点的最优匹配序列;并根据最优匹配序列确定图编辑距离;
[0027]数据集成完成模块,用于根据最优匹配序列以及图编辑距离对图结构之间相应位置的节点进行集成。
[0028]可选地,所述图结构确定模块具体包括:
[0029]图结构确定单元,用于采用SQL2Graph工具,将不同的数据模式分别进行图映射,确定相应的图结构。
[0030]可选地,所述代价矩阵确定模块具体包括:
[0031]二分代价矩阵确定单元,用于根据不同数据模式映射的图结构,确定二分代价矩阵;
[0032]SFBP代价矩阵确定单元,用于对所述二分代价矩阵进行简化构建SFBP代价矩阵。
[0033]可选地,所述最优匹配序列和图编辑距离确定模块具体包括:
[0034]引进元A
ij
替换规则单元,用于在代价矩阵中采用引进元A
ij
替换规则;所述引进元A
ij
替换规则为相同的两个节点执行先插入再删除,或先删除再插入操作的代价值一致;其中i表示对一结构图中第i个节点进行删除操作,j表示在一结构图中插入另一结构图g中的第j个节点;
[0035]最优匹配序列确定单元,用于对采用引进元A
ij
替换规则后的代价矩阵,采用GLA算法,确定最优匹配序列。
[0036]可选地,所述数据集成完成模块具体包括:
[0037]第一判断单元,用于判断所述图编辑距离是否大于距离阈值;
[0038]若所述图编辑距离大于距离阈值,则不同的数据模式为不匹配,无法进行数据集成;
[0039]若所述图编辑距离小于或等于距离阈值,则根据所述最优匹配序列对结构图进行集成。
[0040]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0041]本专利技术所提供的一种基于近似图匹配算法的数据集成方法及系统,通过将两个或多个数据模式(如,XML文档,数据库中的数据等)映射为图结构,再通过近似图匹配算法对
所映射成的图进行图匹配,得出图之间的代价矩阵以及图编辑距离,以此衡量图之间的相似性。在此基础上,将不同数据模式中相似的部分进行抽取,整合,达到在异构数据间的进行数据集成的目的。本专利技术利用图结构能更好表示对象的属性以及对象之间关系的特点,将原本抽象的数据模式映射为结构层次清晰的图,并结合近似图匹配算法,使异构数据可以较高效,较准确的进行匹配与集成。
附图说明
[0042]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0043]图1为本专利技术所提供的一种基于近似图匹配算法的数据集成方法流程示意图;
[0044]图2为映射后的结构图;
[0045]图3为本专利技术所提供实施例的流程示意图
[0046]图4为本专利技术所提供的一种基于近似图匹配算法的数据集成系统结构示意图。
具体实施方式
[0047]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于近似图匹配算法的数据集成方法,其特征在于,包括:将不同的数据模式分别进行图映射,确定相应的图结构;利用近似图匹配算法对所映射成的图进行图匹配,确定图结构之间的代价矩阵;根据图结构之间的代价矩阵确定图结构中节点的最优匹配序列;并根据最优匹配序列确定图编辑距离;根据最优匹配序列以及图编辑距离对图结构之间相应位置的节点进行集成。2.根据权利要求1所述的一种基于近似图匹配算法的数据集成方法,其特征在于,所述将不同的数据模式分别进行图映射,确定相应的图结构,具体包括:采用SQL2Graph工具,将不同的数据模式分别进行图映射,确定相应的图结构。3.根据权利要求1所述的一种基于近似图匹配算法的数据集成方法,其特征在于,所述利用近似图匹配算法对所映射成的图进行图匹配,确定图结构之间的代价矩阵,具体包括:根据不同数据模式映射的图结构,确定二分代价矩阵;对所述二分代价矩阵进行简化构建SFBP代价矩阵。4.根据权利要求1所述的一种基于近似图匹配算法的数据集成方法,其特征在于,所述根据图结构之间的代价矩阵确定图结构中节点的最优匹配序列;并根据最优匹配序列确定图编辑距离,具体包括:在代价矩阵中采用引进元A
ij
替换规则;所述引进元A
ij
替换规则为相同的两个节点执行先插入再删除,或先删除再插入操作的代价值一致;其中i表示对一结构图中第i个节点进行删除操作,j表示在一结构图中插入另一结构图g中的第j个节点;对采用引进元A
ij
替换规则后的代价矩阵,采用GLA算法,确定最优匹配序列。5.根据权利要求1所述的一种基于近似图匹配算法的数据集成方法,其特征在于,所述根据最优匹配序列以及图编辑距离对图结构之间相应位置的节点进行集成,具体包括:判断所述图编辑距离是否大于距离阈值;若所述图编辑距离大于距离阈值,则不同的数据模式为不匹配,无法进行数据集成;若所述图编辑距离小于或等于距离阈值,则根据所述最优匹配序列对结构图进行集成。6.一种基于近似图匹配算法的数据集成系统,其特征在于,包...

【专利技术属性】
技术研发人员:陈占芳刘庆宗姜晓明梁玉柱吴森森高鹏辉
申请(专利权)人:长春理工大学重庆研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1