一种基于关联矩阵的不确定数据连接合并算法制造技术

技术编号：15724747 阅读：68 留言：0更新日期：2017-06-29 11:04

本发明专利技术公开了一种基于关联矩阵的不确定数据连接合并算法，主要解决数据项含义不明确、数据对象不明确的不确定数据难以连接合并，从而无法得到数据描述对象的全息影像，造成数据难以理解和使用的问题。本发明专利技术通过研究数据表的属性重要度，以及数据表间属性的相似度，建立不确定数据表的关联矩阵，然后根据关联矩阵选择关联度大的数据表在关联属性上进行连接合并得到相似记录数据集，经过多轮连接合并操作直至将所有的原始不确定数据表进行充分连接合并，从而实现对不确定数据对象进行全面准确描述的目标。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于关联矩阵的不确定数据连接合并算法
本专利技术涉及计算机软件
，具体地，涉及一种基于关联矩阵，确定数据表的连接合并规则，解决不确定数据表的连接合并问题的算法。
技术介绍
随着互联网技术的蓬勃发展，我们已经进入了大数据时代，要从海量的数据中提取出有价值的信息变得更加复杂。在网络中存在许多看似相互独立的数据，实际上他们都是对同一类对象从不同方面的描述，例如同一个人或同一件商品在不同的网站，由于网站关注的角度不同，其存储的关于人或商品对象的属性信息也不完全相同。如果能够找到一种方法，整合多个不同来源且数据项含义不明确、数据对象不明确的数据，得到数据描述对象的详细信息，则对人们了解对象全貌有很大的帮助。其中，不确定数据连接合并算法本质是在数据项含义不明确的数据表间找出关联记录，并将关联记录进行连接合并。对于多个不同来源且数据项含义不明确、数据对象不明确的数据表，要将各表中表示同一对象的记录合并在一起得到对象的全息影像，需要解决两个主要问题，首先如何确定数据表的连接合并顺序，避免可以进行合并的记录被遗漏；其次如何降低大数据应用场景下，表关联操作的计算复杂性问题，对于两个不确定数据表如果直接进行连接匹配计算量非常大，如两个维度分别为m维和n维的数据表，进行连接合并时需要进行m*n次属性值相似匹配。
技术实现思路
为了克服现有技术的不足，本专利技术提供一种基于关联矩阵的不确定数据连接合并算法，以解决数据项含义不明确、数据对象不明确的数据难以进行连接合并的问题。本专利技术为解决上述技术问题所采用的技术方案是：一种基于关联矩阵的不确定数据连接合并算法，包括以下步骤：...

【技术保护点】
一种基于关联矩阵的不确定数据连接合并算法，其特征在于：该方法包括以下步骤：步骤1：引入属性重要度，数据表中数据对象的某一属性的重要度越高则表示该属性对该类数据对象的区分度越大；计算数据表中各属性的重要度，找出数据表所有属性重要度的最大值；步骤2：确定数据表之间的关联度，并建立关联矩阵；步骤3：根据关联矩阵，按表关联度从大到小选取未连接的数据表在关联属性上连接合并，同时综合属性重要度、属性值相似度计算记录相似度合并关联记录进而合并关联表。

【技术特征摘要】
1.一种基于关联矩阵的不确定数据连接合并算法，其特征在于：该方法包括以下步骤：步骤1：引入属性重要度，数据表中数据对象的某一属性的重要度越高则表示该属性对该类数据对象的区分度越大；计算数据表中各属性的重要度，找出数据表所有属性重要度的最大值；步骤2：确定数据表之间的关联度，并建立关联矩阵；步骤3：根据关联矩阵，按表关联度从大到小选取未连接的数据表在关联属性上连接合并，同时综合属性重要度、属性值相似度计算记录相似度合并关联记录进而合并关联表。2.根据权利要求1所述的一种基于关联矩阵的不确定数据连接合并算法，其特征在于：步骤1具体如下：针对数据表T＝{P1,P2,...,Pn}，Pi的取值为统计Pi中每个不同属性值的出现次数，如表1所列：表1属性Pi的取值分布由于同一数据表中存在同一对象的概率很小，因此在大数据表中可以认为每一条记录代表一个不同的对象，基于该假设，其值相等的概率为由于可得则属性Pi的重要度为：3.根据权利要求2所述的一种基于关联矩阵的不确定数据连接合并算法，其特征在于：由于步骤1计算得到的属性重要度的范围较大不利于后期记录相似度的计算，因此对属性重要度进行平滑处理和归一化处理，得到：其中Wpmax表示数据表T所有属性重要度的最大值。4.根据权利要求3所述的一种基于关联矩阵的不确定数据连接合并算法，其特征在于：步骤2具体包括以下子步骤：步骤201，采用杰卡德相似系数来计算属性相似度，并以此确定表间关联属性杰卡德相似系数是衡量两个集合相似度的一种指标，设表Ti、Tj在某个属性上取值集合分别为PVia和PVjb，它们的交集元素在并集中所占的比例，称为两个集合的杰卡德相似系数，即为属性值集合PVia和PVjb的相似度：SP(PVia,PVjb)＝|PVia∩PVjb|/|PVia∪PVjb|SP(PVia,PVjb)取值范围为[0,1]，当两个属性越相似，该值越接近1；反之，接近0；因此可以认为当SP(PVia,PVjb)＞CP时，CP为关联属性阈值，Pia和Pjb即为关联属性，记为J(Pia,Pjb)；步骤202，确定表间关联...

【专利技术属性】
技术研发人员：梁俊杰，王明锋，
申请(专利权)人：武汉迎风聚智科技有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人