一种基于关联矩阵的不确定数据连接合并算法制造技术

技术编号:15724747 阅读:68 留言:0更新日期:2017-06-29 11:04
本发明专利技术公开了一种基于关联矩阵的不确定数据连接合并算法,主要解决数据项含义不明确、数据对象不明确的不确定数据难以连接合并,从而无法得到数据描述对象的全息影像,造成数据难以理解和使用的问题。本发明专利技术通过研究数据表的属性重要度,以及数据表间属性的相似度,建立不确定数据表的关联矩阵,然后根据关联矩阵选择关联度大的数据表在关联属性上进行连接合并得到相似记录数据集,经过多轮连接合并操作直至将所有的原始不确定数据表进行充分连接合并,从而实现对不确定数据对象进行全面准确描述的目标。

【技术实现步骤摘要】
一种基于关联矩阵的不确定数据连接合并算法
本专利技术涉及计算机软件
,具体地,涉及一种基于关联矩阵,确定数据表的连接合并规则,解决不确定数据表的连接合并问题的算法。
技术介绍
随着互联网技术的蓬勃发展,我们已经进入了大数据时代,要从海量的数据中提取出有价值的信息变得更加复杂。在网络中存在许多看似相互独立的数据,实际上他们都是对同一类对象从不同方面的描述,例如同一个人或同一件商品在不同的网站,由于网站关注的角度不同,其存储的关于人或商品对象的属性信息也不完全相同。如果能够找到一种方法,整合多个不同来源且数据项含义不明确、数据对象不明确的数据,得到数据描述对象的详细信息,则对人们了解对象全貌有很大的帮助。其中,不确定数据连接合并算法本质是在数据项含义不明确的数据表间找出关联记录,并将关联记录进行连接合并。对于多个不同来源且数据项含义不明确、数据对象不明确的数据表,要将各表中表示同一对象的记录合并在一起得到对象的全息影像,需要解决两个主要问题,首先如何确定数据表的连接合并顺序,避免可以进行合并的记录被遗漏;其次如何降低大数据应用场景下,表关联操作的计算复杂性问题,对于两个不确定数据表如果直接进行连接匹配计算量非常大,如两个维度分别为m维和n维的数据表,进行连接合并时需要进行m*n次属性值相似匹配。
技术实现思路
为了克服现有技术的不足,本专利技术提供一种基于关联矩阵的不确定数据连接合并算法,以解决数据项含义不明确、数据对象不明确的数据难以进行连接合并的问题。本专利技术为解决上述技术问题所采用的技术方案是:一种基于关联矩阵的不确定数据连接合并算法,包括以下步骤:步骤1:引入属性重要度,数据表中数据对象的某一属性的重要度越高则表示该属性对该类数据对象的区分度越大;计算数据表中各属性的重要度,找出数据表所有属性重要度的最大值;假设对象r1{P1,P2}和r2{P1,P2},对应的属性值分别为r1(p11,p12)和r2(p21,p22),r1和r2表示同一实体时,记为:当对象r1在属性P1上的取值p11和对象r2在属性P1上的取值p21相同时,r1和r2表示同一实体的概率为同样若说明属性P1相对属性P2对该类对象具有更大的区分度,则可以将条件概率作为属性P1的重要度,记为为了方便计算,我们可以采用以下思路来计算属性重要度:当r1和r2为不同的对象,p11=p21相等的概率为P(p11=p21|r1≠r2),由条件概率知,P(p11=p21|r1≠r2)与存在反比关系,因此属性P1的重要度针对数据表T={P1,P2,...,Pn},Pi的取值为统计Pi中每个不同属性值的出现次数,如表1所列:表1属性Pi的取值分布由于同一数据表中存在同一对象的概率很小,因此在大数据表中可以认为每一条记录代表一个不同的对象,基于该假设,其值相等的概率为由于可得则属性Pi的重要度为:由于此值范围较大,不利于后期记录相似度的计算,因此对其进行平滑化处理和归一化处理,得到:其中Wpmax表示数据表T所有属性重要度的最大值。步骤2:确定数据表之间的关联度,并建立关联矩阵;步骤201,采用杰卡德相似系数来计算属性相似度,并以此确定表间关联属性杰卡德相似系数是衡量两个集合相似度的一种指标,设表Ti、Tj在某个属性上取值集合分别为PVia和PVjb,它们的交集元素在并集中所占的比例,称为两个集合的杰卡德相似系数,即为属性值集合PVia和PVjb的相似度:SP(PVia,PVjb)=|PVia∩PVjb|/|PVia∪PVjb|SP(PVia,PVjb)取值范围为[0,1],当两个属性越相似,该值越接近1;反之,接近0;因此可以认为当SP(PVia,PVjb)>CP时,CP为关联属性阈值,Pia和Pjb即为关联属性,记为J(Pia,Pjb);步骤202,确定表间关联度对于表Ti与表Tj,其表关联度计算公式为:其中t为表Ti与表Tj关联属性对数目,表示关联属性Pia、Pjb在Ti和Tj的属性重要度平均值;步骤203,确定关联矩阵根据步骤201和步骤202得到的表间关联属性及表间关联度,建立如下关联矩阵Mnn:其中:Cij(i,j∈{1,...,n}且i<j)表示集合;J(Pia,Pjb)表示关联属性Pia和Pjb,步骤3:根据关联矩阵,按表关联度从大到小选取未连接的数据表在关联属性上连接合并,同时综合属性重要度、属性值相似度计算记录相似度合并关联记录进而合并关联表。步骤301,按数据表之间的关联度Sij从大到小排序,依次取关联度最大且未进行连接合并的两个表Ti和Tj进行连接合并,合并两表中的关联记录过程如步骤302;步骤302,确定关联记录对于记录ri{pi1,pi2,...,pia,...,pim}∈Ti和rj{pj1,pj2,...,pjb,...,pjn}∈Tj,判断ri和rj是否为关联记录,在关联属性上根据属性值相似度以及属性重要度计算ri和rj的相似度:其中t为Ti和Tj关联属性对数量,SP(pia,pjb)=1-d(pia,pjb)/n即关联属性值p1i和p2j的相似度,d(pia,pjb)为属性值p1i和p2j的编辑距离,n为p1i和p2j中较长字符串的长度;若SR(ri,rj)>CR,CR为关联记录阈值,则ri和rj为关联记录,可以合并,根据计算结果,合并表Ti和Tj中所有的关联记录;;步骤303,若所有表均参与连接合并,或者剩余一张表,则第一轮连接合并结束。若第一轮有m对数据表参与连接合并,则一轮合并之后还有(n-m)个表。根据之前的关联矩阵Tnn,重新构建这(n-m)个表的关联矩阵T(n-m)(n-m);步骤304,根据重构的关联矩阵T(n-m)(n-m),重复步骤301至步骤303操作,直到最终所有数据表合并为一张表,则整个连接合并完成得到最终的连接合并结果集。本专利技术的有益效果是:本专利技术通过研究数据表的属性重要度,以及数据表间属性的相似度,建立不确定数据表的关联矩阵,然后根据关联矩阵选择关联度大的数据表在关联属性上进行连接合并得到相似记录数据集,经过多轮连接合并操作直至将所有的原始不确定数据表进行充分连接合并,从而实现对不确定数据对象进行全面准确描述的目标。解决了数据项含义不明确、数据对象不明确的不确定数据难以连接合并,从而无法得到数据描述对象的全息影像,造成数据难以理解和使用的问题。附图说明图1为方法流程图;图2为实施例中用到的5个初始表格;图3图4为图2中的5个初始表格经过第一轮连接合并后的结果;图5为经过第二轮连接合并后的结果;图6为经过第三轮连接合并后的结果。具体实施方式下面结合附图及实施例对本专利技术作进一步说明。以下的实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。本专利技术通过建立不确定数据表的关联矩阵,找出数据表之间的关联属性,并根据数据表关联度确定连接合并顺序,从而提高连接合并的准确性以及高效性。具体实现步骤细化如下:步骤一:确定属性重要度数据表中的不同数据项对区分对象的重要度不同,计算不确定数据表的属性重要度,在进行连接合并时判断记录相似度考虑记录中各个属性的重要度,可以提高连接合并的准确性。计算不确定数据表的属性重要度具体步骤如下:1、对于数据表T={P1,P2,...,Pn},Pi的取本文档来自技高网...
一种基于关联矩阵的不确定数据连接合并算法

【技术保护点】
一种基于关联矩阵的不确定数据连接合并算法,其特征在于:该方法包括以下步骤:步骤1:引入属性重要度,数据表中数据对象的某一属性的重要度越高则表示该属性对该类数据对象的区分度越大;计算数据表中各属性的重要度,找出数据表所有属性重要度的最大值;步骤2:确定数据表之间的关联度,并建立关联矩阵;步骤3:根据关联矩阵,按表关联度从大到小选取未连接的数据表在关联属性上连接合并,同时综合属性重要度、属性值相似度计算记录相似度合并关联记录进而合并关联表。

【技术特征摘要】
1.一种基于关联矩阵的不确定数据连接合并算法,其特征在于:该方法包括以下步骤:步骤1:引入属性重要度,数据表中数据对象的某一属性的重要度越高则表示该属性对该类数据对象的区分度越大;计算数据表中各属性的重要度,找出数据表所有属性重要度的最大值;步骤2:确定数据表之间的关联度,并建立关联矩阵;步骤3:根据关联矩阵,按表关联度从大到小选取未连接的数据表在关联属性上连接合并,同时综合属性重要度、属性值相似度计算记录相似度合并关联记录进而合并关联表。2.根据权利要求1所述的一种基于关联矩阵的不确定数据连接合并算法,其特征在于:步骤1具体如下:针对数据表T={P1,P2,...,Pn},Pi的取值为统计Pi中每个不同属性值的出现次数,如表1所列:表1属性Pi的取值分布由于同一数据表中存在同一对象的概率很小,因此在大数据表中可以认为每一条记录代表一个不同的对象,基于该假设,其值相等的概率为由于可得则属性Pi的重要度为:3.根据权利要求2所述的一种基于关联矩阵的不确定数据连接合并算法,其特征在于:由于步骤1计算得到的属性重要度的范围较大不利于后期记录相似度的计算,因此对属性重要度进行平滑处理和归一化处理,得到:其中Wpmax表示数据表T所有属性重要度的最大值。4.根据权利要求3所述的一种基于关联矩阵的不确定数据连接合并算法,其特征在于:步骤2具体包括以下子步骤:步骤201,采用杰卡德相似系数来计算属性相似度,并以此确定表间关联属性杰卡德相似系数是衡量两个集合相似度的一种指标,设表Ti、Tj在某个属性上取值集合分别为PVia和PVjb,它们的交集元素在并集中所占的比例,称为两个集合的杰卡德相似系数,即为属性值集合PVia和PVjb的相似度:SP(PVia,PVjb)=|PVia∩PVjb|/|PVia∪PVjb|SP(PVia,PVjb)取值范围为[0,1],当两个属性越相似,该值越接近1;反之,接近0;因此可以认为当SP(PVia,PVjb)>CP时,CP为关联属性阈值,Pia和Pjb即为关联属性,记为J(Pia,Pjb);步骤202,确定表间关联...

【专利技术属性】
技术研发人员:梁俊杰王明锋
申请(专利权)人:武汉迎风聚智科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1