【技术实现步骤摘要】
面向总体设计的多维数据匹配方法、装置及计算机存储介质
[0001]本专利技术实施例涉及信息
,尤其涉及一种面向总体设计的多维数据匹配方法、装置及计算机存储介质。
技术介绍
[0002]随着数据规模的爆炸式扩大,数据中隐含的价值也在不断增大,挖掘大数据中有价值的信息和知识是目前热门的研究方式。在众多大数据挖掘和机器学习问题中,如何高效地实现大规模数据间精确匹配以及相似度匹配是一个基础的问题。比如,以数据清洗工作为例,首先就需要通过数据间的精确匹配和相似度计算删除冗余数据,以减少存储空间的浪费;或者在执行检索查询任务时,从海量的数据条目中快速的将为查询所输入的数据与数据库中数据进行匹配得到最符合查询问题的数据。
[0003]针对海量规模的参数库,所能够获取到的数据不再局限于单一维度的简单数据,而是具有多个属性维度和数值的多维数据对象,比如某型号物品同时具有质量、功率等多重属性。当前针对多维数据的相似度匹配算法通常是利用对象间距离计算进行相似度计算,比如基于欧式距离、最小边界矩等方法。由于仅依靠距离来计算相似度,造成了匹配所得到的结果并非是用户最期望获得的结果。
技术实现思路
[0004]有鉴于此,本专利技术实施例期望提供一种面向总体设计的多维数据匹配方法、装置及计算机存储介质;能够降低匹配过程的时间复杂度。
[0005]本专利技术实施例的技术方案是这样实现的:
[0006]第一方面,本专利技术实施例提供了一种面向总体设计的多维数据匹配方法,所述方法包括:
[0007] ...
【技术保护点】
【技术特征摘要】
1.一种面向总体设计的多维数据匹配方法,其特征在于,所述方法包括:根据设定的哈希函数为多维数据表内的每个多维数据项建立对应的哈希值索引;相应于匹配策略为精确匹配,根据所述哈希函数确定待匹配多维数据项对应的哈希值,并且根据所述待匹配多维数据项对应的哈希值从所述多维数据表内搜索设定数目的第一目标多维数据项;其中,所述第一目标多维数据项与所述待匹配多维数据项精确匹配;相应于匹配策略为相似度匹配,基于设定的加权欧氏距离策略在所述多维数据表内逐项获取所述待匹配多维数据项与每个多维数据项之间的相似度,并从所述多维数据表中选取相似度最高的设定数目个第二目标多维数据项;其中,所述第二目标多维数据项与所述待匹配多维数据项相似匹配。2.根据权利要求1所述的方法,其特征在于,所述根据设定的哈希函数为多维数据表内的每个多维数据项建立对应的哈希值索引,包括:根据除留余数法确定所述哈希函数H(key)=key%p;其中,key表示待执行哈希运算的多维数据项,p表示不大于n的最大素数,n表示所述多维数据表中的多维数据项数目;根据所述哈希函数,逐项计算所述多维数据表中各多维数据项对应的哈希值,并针对每个多维数据项建立索引。3.根据权利要求2所述的方法,其特征在于,所述根据所述哈希函数确定待匹配多维数据项对应的哈希值,并且根据所述待匹配多维数据项对应的哈希值从所述多维数据表内搜索设定数目的第一目标多维数据项,包括:建立用于存放哈希冲突且大小为p的哈希桶结构;基于所述哈希函数计算所述待匹配多维数据项的哈希值;根据所述待匹配多维数据项的哈希值逐项搜索所述多维数据表中各多维数据项对应的哈希值,当所述待匹配多维数据项的哈希值与被搜索的多维数据项对应的哈希值相同时,将被搜索的多维数据项存放于所述哈希桶结构;逐项搜索完成后,遍历所述哈希桶结构中所存放的多维数据项,并将所述哈希桶结构中所存放的多维数据项确定为所述第一目标多维数据项。4.根据权利要求1所述的方法,其特征在于,所述基于设定的加权欧氏距离策略在所述多维数据表内逐项获取所述待匹配多维数据项与每个多维数据项之间的相似度,包括:对于所述多维数据表内的每个多维数据项,逐项执行以下步骤:针对所述多维数据表中的第i个多维数据项,按照下式获取所述待匹配多维数据项y与所述第i个多维数据项x
i
之间的加权欧氏距离:其中,1≦i≦n,n表示所述多维数据表中的多维数据项数目,m表示所述多维数据表或者所述待匹配多维数据项的维度数目,a
j
表示第j个维度对应的权重值,x
i,j
表示第i个多维数据项x
i
中第j个维度的数据值,y
j
表示所述待匹配多维数据项y中第j个维度的数据值;以及,根据所述待匹配多维数据项y与所述第i个多维数据项x
i
之间的加权欧式距离按照下式获取所述第i个多维数据项x
i
与所述待匹配多维数据项y之间的相似度值θ(x
i
,y):
5.根据权利要求4所述的方法,其特征在于,所述从所述多维数据表中选取相似度最高的设定数目个第二目标多维数据项,包括:构建用于存放第二目标多维数据项且大小为k的最小堆结构,且所述最小堆结构的堆顶元素值初始化为所述多维数据表中的第一个多维数据项的索引值;在所述多维数据表中,由第二个多维数据项开始逐项将相似度值与所述堆顶元素值对应的多维数据项的相似度值进行比较,若被比较的多维数据项的相似度值大于所述堆顶元素值对应的多维数据项的相似度值,则将所述被比较的多维数据项的索引插入所述最小堆结构...
【专利技术属性】
技术研发人员:叶东,孙兆伟,张洪珠,李晖,高祥博,赵翰墨,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。