【技术实现步骤摘要】
数据相似度确定方法、装置及处理设备
本申请涉及数据处理领域,特别涉及一种数据相似度确定方法、装置及处理设备。
技术介绍
数据集通常采用表的形式记录数据,表中的每一行即为一个元组(也称为记录)。相似连接是一种常见的数据集操作,是指从多个数据集中确定出相似度大于指定阈值的元组(Tuple)对,并将该元组对存储在数据集中的同一行。相关技术中,一般采用局部敏感哈希(LocalitySensitiveHashing,LSH)算法来确定属于不同数据集的元组对的相似度。具体的,LSH算法可以采用多个不同的哈希函数对各个数据集中的每个元组分别进行哈希映射,得到每个元组在不同哈希映射下的哈希值;之后可以统计属于不同数据集的元组对在各个哈希函数的哈希映射下,哈希值相同的次数,从而得到每个元组对所对应的统计频次,该统计频次即可反映元组对的相似程度。但是,当数据集个数较多,或数据集中包括的元组的个数较多时,相关技术中的LSH算法的效率较低。
技术实现思路
本申请提供了一种数据相似度确定方法、装置及处理设备,可以解决相关技术中的相关技术中的LSH算法的效率较低的问题。技术方案如下:第一方面,提供了一种数据相似度确定方法,应用于处理设备,该方法可以包括:获取与多个不同的哈希函数一一对应的多个哈希表,每个该哈希表是由对应的哈希函数对多个数据集中的每个元组进行哈希映射后得到的,每个该哈希表包括至少一个哈希桶,每个该哈希桶中记录有多个键值,该多个键值指示的元组的哈希值相同;将该多个哈希表所包括的多个哈希桶划分为至少一个集群,每个该集群包括相似度大于相似度阈值的多个哈希桶;分别对每个该集群包括的 ...
【技术保护点】
1.一种数据相似度确定方法,其特征在于,应用于处理设备,所述方法包括:获取与多个不同的哈希函数一一对应的多个哈希表,每个所述哈希表是由对应的哈希函数对多个数据集中的每个元组进行哈希映射后得到的,每个所述哈希表包括至少一个哈希桶,每个所述哈希桶中记录有多个键值,所述多个键值指示的元组的哈希值相同;将所述多个哈希表所包括的多个哈希桶划分为至少一个集群,每个所述集群包括相似度大于相似度阈值的多个哈希桶;分别对每个所述集群包括的多个哈希桶中,属于不同数据集的键值对出现的次数进行统计,得到每个键值对所对应的统计频次,所述统计频次的高低与键值对所指示的元组对的相似程度的高低正相关。
【技术特征摘要】
1.一种数据相似度确定方法,其特征在于,应用于处理设备,所述方法包括:获取与多个不同的哈希函数一一对应的多个哈希表,每个所述哈希表是由对应的哈希函数对多个数据集中的每个元组进行哈希映射后得到的,每个所述哈希表包括至少一个哈希桶,每个所述哈希桶中记录有多个键值,所述多个键值指示的元组的哈希值相同;将所述多个哈希表所包括的多个哈希桶划分为至少一个集群,每个所述集群包括相似度大于相似度阈值的多个哈希桶;分别对每个所述集群包括的多个哈希桶中,属于不同数据集的键值对出现的次数进行统计,得到每个键值对所对应的统计频次,所述统计频次的高低与键值对所指示的元组对的相似程度的高低正相关。2.根据权利要求1所述的方法,其特征在于,所述分别对每个所述集群包括的多个哈希桶中,属于不同数据集的键值对出现的次数进行统计,得到每个键值对所对应的统计频次,包括:分别对每个所述集群包括的多个哈希桶中,属于不同数据集的键值对出现的次数进行统计,得到每个键值对在每个所述集群中对应的统计频次;将每个键值对在各个集群中对应的统计频次累加,得到每个所述键值对所对应的统计频次。3.根据权利要求2所述的方法,其特征在于,所述处理设备包括:存储器以及与所述存储器连接的硬件处理器,所述多个集群存储在所述存储器中;所述分别对每个所述集群包括的多个哈希桶中,属于不同数据集的键值对出现的次数进行统计,包括:所述硬件处理器从所述存储器中依次读取每个所述集群,并分别对每个所述集群包括的多个哈希桶中,属于不同数据集的键值对出现的次数进行统计;所述方法还包括:所述硬件处理器将统计得到的统计频次写入所述存储器;所述将每个键值对在各个集群中对应的统计频次累加,包括:所述存储器将每个键值对在各个集群中对应的统计频次累加,得到每个所述键值对所对应的统计频次。4.根据权利要求3所述的方法,其特征在于,所述硬件处理器将统计得到的统计频次写入所述存储器,包括:当所述硬件处理器的存储空间被占满,或者所述硬件处理器完成对一个集群的统计后,将统计得到的统计频次写入所述存储器,直至将每个键值对在各个集群中对应的统计频次均写入所述存储器。5.根据权利要求4所述的方法,其特征在于,所述硬件处理器将统计得到的统计频次写入所述存储器,包括:将统计得到的统计频次中,数值小于频次阈值的统计频次写入所述存储器。6.根据权利要求4或5所述的方法,其特征在于,所述硬件处理器每次写入所述存储器的统计频次记录在一个表分片中;所述存储器将每个键值对在各个集群中对应的统计频次累加,得到每个所述键值对所对应的统计频次,包括:分别统计接收到的多个表分片中,每对表分片的相似度;按照相似度由高至低的顺序,依次对每对表分片中相同键值对所对应的统计频次进行累加,得到每个所述键值对所对应的统计频次。7.根据权利要求4或5所述的方法,其特征在于,所述硬件处理器将统计得到的统计频次写入所述存储器,包括:对统计得到的统计频次进行排序;将排序后的统计频次写入所述存储器。8.根据权利要求1至5任一所述的方法,其特征在于,在分别对每个所述集群包括的多个哈希桶中,属于不同数据集的键值对出现的次数进行统计之前,所述方法还包括:依次检测每个所述哈希桶中是否包含目标键值对,所述目标键值对指示的元组对属于待查询数据集;将每个所述集群中不包含目标键值对的哈希桶滤除。9.一种数据相似度确定装置,其特征在于,应用于处理设备,所述装置包括:获取模块,用于获取与多个不同的哈希函数一一对应的多个哈希表,每个所述哈希表是由对应的哈希函数对多个数据集中的每个元组进行哈希映射后得到的,每个所述哈希表包括至少一个哈希桶,每个所述哈希桶中记录有多个键值,所述多个键值指示的元组的哈希值相同;划分模块,用于将所述多个哈希表所包括的多个哈希桶划分为至少一个集群,每个所述集群包括相似度大于相似度阈值的多个哈希桶;统计模块,用于分别对每个所述集群包括的多个哈希桶中,属于不同数据集的键值对出现的次数进行统...
【专利技术属性】
技术研发人员:傅忱忱,薛春,李建华,王元钢,郭鑫,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。