一种基于多属性聚类的数据融合方法及装置制造方法及图纸

技术编号:19009547 阅读:64 留言:0更新日期:2018-09-22 09:22
本发明专利技术提供一种基于多属性聚类的数据融合方法,旨在提高发现真值的准确度,为用户的决策提供更好的辅助信息。包括,数据预处理,描述值准确度更新,属性准确度更新和属性聚类模块。采用本发明专利技术的方法,可以在融合异源异构数据时,从来自不同数据源、具有不同结构的数据中甄别质量高的数据源、挖掘最实时准确的信息,有效解决传统方法中的准确性不够、迭代次数过多、收敛结果不稳定等问题。

Data fusion method and device based on multi-attribute clustering

The invention provides a data fusion method based on multi-attribute clustering, aiming at improving the accuracy of finding true values and providing better auxiliary information for users'decision-making. It includes data pretreatment, description accuracy updating, attribute accuracy updating and attribute clustering module. By adopting the method of the invention, high quality data sources can be screened from different data sources and data with different structures when heterogeneous data are fused, and the most real-time and accurate information can be mined. The problems of inadequate accuracy, too many iterations and unstable convergence results in the traditional method can be effectively solved.

【技术实现步骤摘要】
一种基于多属性聚类的数据融合方法及装置
本专利技术属于数据融合算法,特别涉及各数据类型距离计算公式,同时还涉及k-means等聚类方法。
技术介绍
信息爆炸带来的海量数据以不同的格式存储在不同的数据源中,为了综合利用多源行业领域大数据,需要将多个数据源中的数据,存放在一个一致的数据存储中,实现多源数据的融合。
技术实现思路
本专利技术要解决的问题是在现有技术的基础上,提出一种基于多属性聚类的数据融合方法及装置,旨在提高发现真值的准确度,为用户的决策提供更好的辅助信息。为了达到上述目的,本专利技术采取的技术方案为:一种基于多属性聚类的数据融合方法,包括:(1)数据预处理;(2)描述值准确度更新;(3)属性准确度更新;(4)属性聚类。进一步的,步骤(1)中,主要包括模式映射、数据清洗、重复值检测;对现实数据特征进行分析、抽象,将原始数据转化为合理的数据。进一步的,步骤(2)中,在数据源各属性准确度保持不变的情况下,通过以真实值的准确度来定义数据源的准确度,并针对不同的数据类型,提出相应的计算函数。进一步的,步骤(3)中,在保持描述值准确度不变的情况下,更新各数据源的准确度,计算每个数据源在每个属性上的准确度,并根据每个数据源在每个属性上准确度的差异,构建每个属性对所有数据源的向量。进一步的,步骤(4)中,将数据源以属性列分割抽离出来,组成属性列的向量空间,对属性列的向量空间进行聚类,把相似的属性聚在同一类。本专利技术的另一方面,还提出了一种基于多属性聚类的数据融合装置,包括:数据预处理模块,用于数据预处理;描述值更新模块,用于描述值准确度更新;属性更新模块,用于属性准确度更新;聚类模块,用于属性聚类。进一步的,所述数据预处理模块包括模式映射单元、数据清洗单元、重复值检测单元;用于对现实数据特征进行分析、抽象,将原始数据转化为合理的数据。进一步的,所述描述值更新模块包括:定义单元,用于在数据源各属性准确度保持不变的情况下,通过以真实值的准确度来定义数据源的准确度;函数单元,用于针对不同的数据类型,提出相应的计算函数。进一步的,所述属性更新模块包括:准确度单元,用于在保持描述值准确度不变的情况下,更新各数据源的准确度,计算每个数据源在每个属性上的准确度;向量构建单元,用于根据每个数据源在每个属性上准确度的差异,构建每个属性对所有数据源的向量。进一步的,所述聚类模块包括:向量空间单元,用于将数据源以属性列分割抽离出来,组成属性列的向量空间;聚类单元,用于对属性列的向量空间进行聚类,把相似的属性聚在同一类。本专利技术提出的一种基于多属性聚类的数据融合方法及装置,与现有技术相比,有益效果为:本专利技术将多个数据源中的数据,存放在一个一致的数据存储中,实现多源数据的融合,提高了发现真值的准确度和时间性能,为用户的决策提供更好的辅助信息。附图说明图1是本专利技术实施例所述方法的示意图。具体实施方式下面结合附图及具体实施例对本专利技术做进一步说明。如图1所示,本专利技术为了提高发现真值的准确度和时间性能,提出了一种基于多属性聚类的数据融合方法,采用分而治之的策略,该模型包括四个阶段:(1)数据预处理;(2)描述值准确度更新;(3)属性准确度更新;(4)属性聚类。(1)原始数据一般存在杂乱性、重复性、异构性等问题,为了减少它们对数据融合结果的影响,需要先将原始数据转化为合理的数据,具体包括模式映射、数据清洗、重复值检测等,对现实数据特征进行分析、抽象,去除明显的异常符号、统一格式和去除异常值,将原始数据(rawdata)转化为合理的数据。数据经常含有异常符号,而这些异常会诱导用户的错误理解和程序的正常运行,为此需要消除它们,通过正则表达式可以基本达到目的。对数值属性列去除非数字:Patternpattern=Pattern.compile("[^0-9]");Matchermatcher=pattern.matcher(s1);s1=matcher.replaceAll("");由于数据源自身的表述习惯,对于同一个属性偶儿会采用不同的度量方式,比如温度有华氏摄氏度和摄氏温度之分;身高也有英尺英寸、厘米和米的区别等等。该步骤主要通过半自动和手工完成。(2)描述值准确度更新是在数据源各属性准确度保持不变的情况下,计算各描述值的准确度,此时会考虑到描述值之间的相互依赖;通过以真实值的准确度来定义数据源的准确度,并针对不同的数据类型,提出相应的计算函数。关于对象O2的属性P1有两个不同的事实描述v1,v2分别来自于数据源W1,W2;关于属性P2有三个不同的描述v3,v4,v5;其中v4被数据源W1和W2共有。现要找到关于对象O2的属性P1和P2最准确的描述。具体算法如下:(3)属性准确度更新在保持描述值准确度不变的情况下,更新各数据源的准确度;计算每个数据源在每个属性上的准确度,并根据每个数据源在每个属性上准确度的差异,构建每个属性对所有数据源的向量。具有相似分布规律的属性列被聚到同一类中,对于每个类中的属性列,重新计算数据源在该类中的准确度,使同一数据源在该类中具有相同的准确度。定义数据源某属性的准确度:其中,F(wi,j)是数据源w对事物的描述集合,s(v)是描述v的准确度。从公式可以看出,数据源的准确度和描述值得准确度相互依赖。具体算法如下:(4)属性聚类,构建属性向量空间,计算各数据源各属性的准确度,对属性向量空间进行聚类,把相似的属性聚在同一类。具有相同规律的属性能聚到一起,增进相互之间的影响,还可以观测到数据源的属性间的相互联系。一个对象由很多属性组成,而这些属性的准确度很可能是存在差异的,为此将数据源以属性列分割抽离出来,组成了属性列的向量空间。聚类的目的是使具有相同规律的属性能聚到一起,增进相互之间的影响,还可以观测到数据源的属性间的相互联系。在完成上述聚类之后,同一类中会计算数据源在此类中的准确度,并可以观察到其中的排序情况,用其更新属性的准确度,具体算法如下:以上所述仅为本专利技术的具体实施例而已,并不用于限定本专利技术的保护范围,凡在本专利技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...
一种基于多属性聚类的数据融合方法及装置

【技术保护点】
1.一种基于多属性聚类的数据融合方法,其特征在于,包括:(1)数据预处理;(2)描述值准确度更新;(3)属性准确度更新;(4)属性聚类。

【技术特征摘要】
1.一种基于多属性聚类的数据融合方法,其特征在于,包括:(1)数据预处理;(2)描述值准确度更新;(3)属性准确度更新;(4)属性聚类。2.根据权利要求1所述的一种基于多属性聚类的数据融合方法,其特征在于,步骤(1)中,主要包括模式映射、数据清洗、重复值检测;对现实数据特征进行分析、抽象,将原始数据转化为合理的数据。3.根据权利要求1所述的一种基于多属性聚类的数据融合方法,其特征在于,步骤(2)中,在数据源各属性准确度保持不变的情况下,通过以真实值的准确度来定义数据源的准确度,并针对不同的数据类型,提出相应的计算函数。4.根据权利要求1所述的一种基于多属性聚类的数据融合方法,其特征在于,步骤(3)中,在保持描述值准确度不变的情况下,更新各数据源的准确度,计算每个数据源在每个属性上的准确度,并根据每个数据源在每个属性上准确度的差异,构建每个属性对所有数据源的向量。5.根据权利要求1所述的一种基于多属性聚类的数据融合方法,其特征在于,步骤(4)中,将数据源以属性列分割抽离出来,组成属性列的向量空间,对属性列的向量空间进行聚类,把相似的属性聚在同一类。6.一种基于多属性聚类的数据融合装置,其特征在于,包括:数据预处理模块,用于数据预处理;...

【专利技术属性】
技术研发人员:赵伟武新崔维力宋珂慧
申请(专利权)人:天津南大通用数据技术股份有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1