面向总体设计的多维数据匹配方法、装置及计算机存储介质制造方法及图纸

技术编号:29098634 阅读:43 留言:0更新日期:2021-06-30 10:09
本发明专利技术实施例公开了一种面向总体设计的多维数据匹配方法、装置及计算机存储介质;该方法可以包括:根据设定的哈希函数为多维数据表内的每个多维数据项建立对应的哈希值索引;相应于匹配策略为精确匹配,根据所述哈希函数确定待匹配多维数据项对应的哈希值,并且根据所述待匹配多维数据项对应的哈希值从所述多维数据表内搜索设定数目的第一目标多维数据项;相应于匹配策略为相似度匹配,基于设定的加权欧氏距离策略在所述多维数据表内逐项获取所述待匹配多维数据项与每个多维数据项之间的相似度,并从所述多维数据表中选取相似度最高的设定数目个第二目标多维数据项。最高的设定数目个第二目标多维数据项。最高的设定数目个第二目标多维数据项。

【技术实现步骤摘要】
面向总体设计的多维数据匹配方法、装置及计算机存储介质


[0001]本专利技术实施例涉及信息
,尤其涉及一种面向总体设计的多维数据匹配方法、装置及计算机存储介质。

技术介绍

[0002]随着数据规模的爆炸式扩大,数据中隐含的价值也在不断增大,挖掘大数据中有价值的信息和知识是目前热门的研究方式。在众多大数据挖掘和机器学习问题中,如何高效地实现大规模数据间精确匹配以及相似度匹配是一个基础的问题。比如,以数据清洗工作为例,首先就需要通过数据间的精确匹配和相似度计算删除冗余数据,以减少存储空间的浪费;或者在执行检索查询任务时,从海量的数据条目中快速的将为查询所输入的数据与数据库中数据进行匹配得到最符合查询问题的数据。
[0003]针对海量规模的参数库,所能够获取到的数据不再局限于单一维度的简单数据,而是具有多个属性维度和数值的多维数据对象,比如某型号物品同时具有质量、功率等多重属性。当前针对多维数据的相似度匹配算法通常是利用对象间距离计算进行相似度计算,比如基于欧式距离、最小边界矩等方法。由于仅依靠距离来计算相似度,造成了匹配所得到的结果并非是用户最期望获得的结果。

技术实现思路

[0004]有鉴于此,本专利技术实施例期望提供一种面向总体设计的多维数据匹配方法、装置及计算机存储介质;能够降低匹配过程的时间复杂度。
[0005]本专利技术实施例的技术方案是这样实现的:
[0006]第一方面,本专利技术实施例提供了一种面向总体设计的多维数据匹配方法,所述方法包括:
[0007]根据设定的哈希函数为多维数据表内的每个多维数据项建立对应的哈希值索引;
[0008]相应于匹配策略为精确匹配,根据所述哈希函数确定待匹配多维数据项对应的哈希值,并且根据所述待匹配多维数据项对应的哈希值从所述多维数据表内搜索设定数目的第一目标多维数据项;其中,所述第一目标多维数据项与所述待匹配多维数据项精确匹配;
[0009]相应于匹配策略为相似度匹配,基于设定的加权欧氏距离策略在所述多维数据表内逐项获取所述待匹配多维数据项与每个多维数据项之间的相似度,并从所述多维数据表中选取相似度最高的设定数目个第二目标多维数据项;其中,所述第二目标多维数据项与所述待匹配多维数据项相似匹配。
[0010]第二方面,本专利技术实施例提供了一种面向总体设计的多维数据匹配装置,所述装置包括:建立部分、精确匹配部分和相似度匹配部分;其中,
[0011]所述建立部分,经配置为根据设定的哈希函数为多维数据表内的每个多维数据项建立对应的哈希值索引;
[0012]所述精确匹配部分,经配置为相应于匹配策略为精确匹配,根据所述哈希函数确
定待匹配多维数据项对应的哈希值,并且根据所述待匹配多维数据项对应的哈希值从所述多维数据表内搜索设定数目的第一目标多维数据项;其中,所述第一目标多维数据项与所述待匹配多维数据项精确匹配;
[0013]所述相似度匹配部分,经配置为相应于匹配策略为相似度匹配,基于设定的加权欧氏距离策略在所述多维数据表内逐项获取所述待匹配多维数据项与每个多维数据项之间的相似度,并从所述多维数据表中选取相似度最高的设定数目个第二目标多维数据项;其中,所述第二目标多维数据项与所述待匹配多维数据项相似匹配。
[0014]第三方面,本专利技术实施例提供了一种计算机存储介质,所述计算机存储介质存储有面向总体设计的多维数据匹配程序,所述面向总体设计的多维数据匹配程序被至少一个处理器执行时实现第一方面所述面向总体设计的多维数据匹配方法步骤。
[0015]本专利技术实施例提供了一种面向总体设计的多维数据匹配方法、装置及计算机存储介质;利用哈希值进行多维数据项的精确匹配,此外,利用加权欧氏距离进行相似度匹配,能够在保证匹配准确率不变的情况下,降低了匹配的时间复杂度。
附图说明
[0016]图1为本专利技术实施例提供的一种面向总体设计的多维数据匹配方法流程示意图;
[0017]图2为本专利技术实施例提供的精确匹配的实现方案示意图;
[0018]图3为本专利技术实施例提供的多维数据表示意图;
[0019]图4为本专利技术实施例提供的待匹配多维数据项的示意图;
[0020]图5为本专利技术实施例提供的相似度匹配的实现方案示意图;
[0021]图6为本专利技术实施例提供的一种面向总体设计的多维数据匹配装置组成示意图;
[0022]图7为本专利技术实施例提供的一种计算设备的硬件结构示意图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0024]首先,对本专利技术实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
[0025]在本专利技术实施例中,多维数据表具体可以是一张具有m个维度并包含有n个数据项的数据表,在具体实施过程中,每个维度可以对应一个属性,因此,在后续阐述中,“多维”与“多属性”之间是可以通用的。每个数据均可认为是一个多维数据项,可以理解地,在当前大规模数据的场景下,多维数据表中的多维数据项的条数可以多至以“万”为单位计数,在一些示例中,每个多维数据项可以对应多维数据表中的每行,相应的,多维数据表中的每列则对应每个维度。基于此,本专利技术实施例所阐述的面向总体设计的多维数据匹配方案,也就期望在以上所阐述的多维数据表中查询到与待匹配的多维数据项相匹配的多维数据项。
[0026]精确匹配,是指待匹配的多维数据项与多维数据表中每一个多维数据项之间逐个维度进行匹配,从而获得与待匹配的多维数据项在每个维度的数值均完全一致的多维数据项。
[0027]相似度匹配,是指待匹配的多维数据项与多维数据表中每一个多维数据项之间逐个维度进行匹配,但是各维度的数值可能存在不能完全相同的匹配情况。
[0028]加权欧式距离,是指通过ad(x,y)表示多维数据项x与y之间的加权欧式距离,以多维数据项x与y均是m维数据项为例,其公式可以被表示为:其中,x
i
与y
i
分别表示多维数据项x与y在第i个维度的数值;与常规的欧式距离不同的是,每项完全平方差公式前面的系数为a
i
(1≤i≤m)表示第i个维度所对应的权值,而不是常数1。
[0029]基于以上相关概念的定义和解释阐述,在卫星总体设计过程中,设计参数通常具有多个属性,因此可被视为多维数据。在一些示例中,从已有的参数库中的选取适当的设计参数可以认为是一项多维数据匹配任务,需要从中匹配获得相同或相近的设计参数。面对该任务需求,本专利技术实施例期望提供一种面向总体设计的多维数据匹配方案,能够在保证匹配准确率不变的情况下,降低匹配过程的时间复杂度。
[0030]基于此,参见图1,其示出了本专利技术实施例提供的一种面向总体设计的多维数据匹配方法,该方法可以包括:
[0031]S101:根据设定的哈希函数为多维数据表内的每个多维数据项建立对应的哈希值索引;
[0032]S102:相应于匹配策略为精确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向总体设计的多维数据匹配方法,其特征在于,所述方法包括:根据设定的哈希函数为多维数据表内的每个多维数据项建立对应的哈希值索引;相应于匹配策略为精确匹配,根据所述哈希函数确定待匹配多维数据项对应的哈希值,并且根据所述待匹配多维数据项对应的哈希值从所述多维数据表内搜索设定数目的第一目标多维数据项;其中,所述第一目标多维数据项与所述待匹配多维数据项精确匹配;相应于匹配策略为相似度匹配,基于设定的加权欧氏距离策略在所述多维数据表内逐项获取所述待匹配多维数据项与每个多维数据项之间的相似度,并从所述多维数据表中选取相似度最高的设定数目个第二目标多维数据项;其中,所述第二目标多维数据项与所述待匹配多维数据项相似匹配。2.根据权利要求1所述的方法,其特征在于,所述根据设定的哈希函数为多维数据表内的每个多维数据项建立对应的哈希值索引,包括:根据除留余数法确定所述哈希函数H(key)=key%p;其中,key表示待执行哈希运算的多维数据项,p表示不大于n的最大素数,n表示所述多维数据表中的多维数据项数目;根据所述哈希函数,逐项计算所述多维数据表中各多维数据项对应的哈希值,并针对每个多维数据项建立索引。3.根据权利要求2所述的方法,其特征在于,所述根据所述哈希函数确定待匹配多维数据项对应的哈希值,并且根据所述待匹配多维数据项对应的哈希值从所述多维数据表内搜索设定数目的第一目标多维数据项,包括:建立用于存放哈希冲突且大小为p的哈希桶结构;基于所述哈希函数计算所述待匹配多维数据项的哈希值;根据所述待匹配多维数据项的哈希值逐项搜索所述多维数据表中各多维数据项对应的哈希值,当所述待匹配多维数据项的哈希值与被搜索的多维数据项对应的哈希值相同时,将被搜索的多维数据项存放于所述哈希桶结构;逐项搜索完成后,遍历所述哈希桶结构中所存放的多维数据项,并将所述哈希桶结构中所存放的多维数据项确定为所述第一目标多维数据项。4.根据权利要求1所述的方法,其特征在于,所述基于设定的加权欧氏距离策略在所述多维数据表内逐项获取所述待匹配多维数据项与每个多维数据项之间的相似度,包括:对于所述多维数据表内的每个多维数据项,逐项执行以下步骤:针对所述多维数据表中的第i个多维数据项,按照下式获取所述待匹配多维数据项y与所述第i个多维数据项x
i
之间的加权欧氏距离:其中,1≦i≦n,n表示所述多维数据表中的多维数据项数目,m表示所述多维数据表或者所述待匹配多维数据项的维度数目,a
j
表示第j个维度对应的权重值,x
i,j
表示第i个多维数据项x
i
中第j个维度的数据值,y
j
表示所述待匹配多维数据项y中第j个维度的数据值;以及,根据所述待匹配多维数据项y与所述第i个多维数据项x
i
之间的加权欧式距离按照下式获取所述第i个多维数据项x
i
与所述待匹配多维数据项y之间的相似度值θ(x
i
,y):
5.根据权利要求4所述的方法,其特征在于,所述从所述多维数据表中选取相似度最高的设定数目个第二目标多维数据项,包括:构建用于存放第二目标多维数据项且大小为k的最小堆结构,且所述最小堆结构的堆顶元素值初始化为所述多维数据表中的第一个多维数据项的索引值;在所述多维数据表中,由第二个多维数据项开始逐项将相似度值与所述堆顶元素值对应的多维数据项的相似度值进行比较,若被比较的多维数据项的相似度值大于所述堆顶元素值对应的多维数据项的相似度值,则将所述被比较的多维数据项的索引插入所述最小堆结构...

【专利技术属性】
技术研发人员:叶东孙兆伟张洪珠李晖高祥博赵翰墨
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1