The invention provides a data fusion method based on multi-attribute clustering, aiming at improving the accuracy of finding true values and providing better auxiliary information for users'decision-making. It includes data pretreatment, description accuracy updating, attribute accuracy updating and attribute clustering module. By adopting the method of the invention, high quality data sources can be screened from different data sources and data with different structures when heterogeneous data are fused, and the most real-time and accurate information can be mined. The problems of inadequate accuracy, too many iterations and unstable convergence results in the traditional method can be effectively solved.
【技术实现步骤摘要】
一种基于多属性聚类的数据融合方法及装置
本专利技术属于数据融合算法,特别涉及各数据类型距离计算公式,同时还涉及k-means等聚类方法。
技术介绍
信息爆炸带来的海量数据以不同的格式存储在不同的数据源中,为了综合利用多源行业领域大数据,需要将多个数据源中的数据,存放在一个一致的数据存储中,实现多源数据的融合。
技术实现思路
本专利技术要解决的问题是在现有技术的基础上,提出一种基于多属性聚类的数据融合方法及装置,旨在提高发现真值的准确度,为用户的决策提供更好的辅助信息。为了达到上述目的,本专利技术采取的技术方案为:一种基于多属性聚类的数据融合方法,包括:(1)数据预处理;(2)描述值准确度更新;(3)属性准确度更新;(4)属性聚类。进一步的,步骤(1)中,主要包括模式映射、数据清洗、重复值检测;对现实数据特征进行分析、抽象,将原始数据转化为合理的数据。进一步的,步骤(2)中,在数据源各属性准确度保持不变的情况下,通过以真实值的准确度来定义数据源的准确度,并针对不同的数据类型,提出相应的计算函数。进一步的,步骤(3)中,在保持描述值准确度不变的情况下,更新各数据源的准确度,计算每个数据源在每个属性上的准确度,并根据每个数据源在每个属性上准确度的差异,构建每个属性对所有数据源的向量。进一步的,步骤(4)中,将数据源以属性列分割抽离出来,组成属性列的向量空间,对属性列的向量空间进行聚类,把相似的属性聚在同一类。本专利技术的另一方面,还提出了一种基于多属性聚类的数据融合装置,包括:数据预处理模块,用于数据预处理;描述值更新模块,用于描述值准确度更新;属性更新模块,用于属 ...
【技术保护点】
1.一种基于多属性聚类的数据融合方法,其特征在于,包括:(1)数据预处理;(2)描述值准确度更新;(3)属性准确度更新;(4)属性聚类。
【技术特征摘要】
1.一种基于多属性聚类的数据融合方法,其特征在于,包括:(1)数据预处理;(2)描述值准确度更新;(3)属性准确度更新;(4)属性聚类。2.根据权利要求1所述的一种基于多属性聚类的数据融合方法,其特征在于,步骤(1)中,主要包括模式映射、数据清洗、重复值检测;对现实数据特征进行分析、抽象,将原始数据转化为合理的数据。3.根据权利要求1所述的一种基于多属性聚类的数据融合方法,其特征在于,步骤(2)中,在数据源各属性准确度保持不变的情况下,通过以真实值的准确度来定义数据源的准确度,并针对不同的数据类型,提出相应的计算函数。4.根据权利要求1所述的一种基于多属性聚类的数据融合方法,其特征在于,步骤(3)中,在保持描述值准确度不变的情况下,更新各数据源的准确度,计算每个数据源在每个属性上的准确度,并根据每个数据源在每个属性上准确度的差异,构建每个属性对所有数据源的向量。5.根据权利要求1所述的一种基于多属性聚类的数据融合方法,其特征在于,步骤(4)中,将数据源以属性列分割抽离出来,组成属性列的向量空间,对属性列的向量空间进行聚类,把相似的属性聚在同一类。6.一种基于多属性聚类的数据融合装置,其特征在于,包括:数据预处理模块,用于数据预处理;...
【专利技术属性】
技术研发人员:赵伟,武新,崔维力,宋珂慧,
申请(专利权)人:天津南大通用数据技术股份有限公司,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。