【技术实现步骤摘要】
数据关联方法、系统及计算机可读存储介质
本专利技术涉及数据关联方法、系统及计算机可读存储介质。
技术介绍
大数据时代,数据呈现多样性和关联性,数据关联是数据融合的核心内容,维基百科上的定义是在计算机领域,关联数据描述了一种发布数据的方法,使得数据能够相互连接起来,便于更好的使用。董欣、戴夫士·斯里瓦斯塔瓦在《大数据集成》这本书第四章中,对传统数据融合和在大数据环境下的数据融合进行比较,以及对数据源的准确度、值为真的概率、数据源之间的复制关系的详细概述,发现数据源之间的关联关系,从而更有效地解决问题。孙探探、申德荣等在“面向关联数据的联合式实体识别方法”一文中,采用多个原始的子对象图将不断地融合在一起,逐渐聚合成大型的对象图,但这种关联方法只是针对实体识别方面进行的。王宁,李杰在文章“大数据环境下用于实体解析的两层相关性聚类方法”中,利用无向完全图表示邻居关系程度,并采用上下两层算法降低了计算代价、提高了解析质量。一般在数据关联中采用余弦距离方法进行相似度的计算,而朱命冬等在“面向关联关系数据的分布式相似性查询方法”中利用决策树计算相似度。HuangD等在“Disc ...
【技术保护点】
数据关联方法,其特征是,包括如下步骤:步骤(1):计算数据的余弦相似度、数据的关联强度和数据的时间接近度;步骤(2):根据计算得到的数据的余弦相似度、数据的关联强度和数据的时间接近度构建数据关系模型;步骤(3):利用已构建的数据关系模型来对数据进行关联。
【技术特征摘要】
1.数据关联方法,其特征是,包括如下步骤:步骤(1):计算数据的余弦相似度、数据的关联强度和数据的时间接近度;步骤(2):根据计算得到的数据的余弦相似度、数据的关联强度和数据的时间接近度构建数据关系模型;步骤(3):利用已构建的数据关系模型来对数据进行关联。2.如权利要求1所述的数据关联方法,其特征是,所述步骤(1)中的计算数据的关联强度的步骤:步骤(101):获取数据的属性权重;步骤(102):根据数据的属性权重,确定数据属性的关联强度;步骤(103):根据数据属性的关联强度,确定数据的关联强度。3.如权利要求2所述的数据关联方法,其特征是,所述步骤(101)中获取数据的属性权重的步骤为:采用TF-IDF算法计算数据的属性权重。4.如权利要求2所述的数据关联方法,其特征是,所述步骤(102)中确定数据属性的关联强度的步骤为:假设待关联的两个数据是第一数据和第二数据,则从第一数据中选择第一属性,从第二数据中选择第二属性,根据第一属性在第一数据中所占的权重、第二属性在第二数据中所占的权重、第一属性和第二属性在数据集合中共同出现的数据的个数、第一属性在数据集合中单独出现的数据的个数和第二属性在数据集合中单独出现的数据的个数,确定数据属性的关联强度。5.如权利要求2所述的数据关联方法,其特征是,所述步骤(103)中确定数据的关联强度的步骤为:计算第一数据的所有数据属性与第二数据的所有数据属性之间的关联强度,将待关联的两个数据的所有数据属性的关联强度进行求和运算,再取平均值,得到数据的关联强度。6.如权利要求1所述的数据关联方法,其特征是,所述步骤(1)中的计算数据的余弦相似度的步骤:计算第一数据的特征项的权值与第二数据的特征项的权值的余弦值,即为数据的余弦相似度。7...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。