数据处理的方法、装置和设备制造方法及图纸

技术编号:13506922 阅读:37 留言:0更新日期:2016-08-10 15:46
一种数据处理的方法、装置和设备,该方法包括:根据相似度阈值j和目标数据,生成第一数据集合,目标数据包括T1个第一比特组,第一数据集合包括M1个第一数据,M1个第一数据与从T1个第一比特组中选取j个第一比特组时的M1种组合方式一一对应;根据j和N个预存数据,生成N个第二数据集合;N个预存数据与N个第二数据集合一一对应,每个预存数据包括T2个第二比特组,每个第二数据集合包括M2个第二数据,第i个第二数据集合中的每个第二数据包括第i个预存数据中的T2个第二比特组,第i个第二数据集合中的M2个第二数据与从T2个第二比特组中选取j个第二比特组时的M2种组合方式一一对应;根据第一数据集合和第二数据集合,从N个预存数据中确定第一预存数据,能够降低相似数据查找过程的复杂度。

【技术实现步骤摘要】
【专利摘要】一种数据处理的方法、装置和设备,该方法包括:根据相似度阈值j和目标数据,生成第一数据集合,目标数据包括T1个第一比特组,第一数据集合包括M1个第一数据,M1个第一数据与从T1个第一比特组中选取j个第一比特组时的M1种组合方式一一对应;根据j和N个预存数据,生成N个第二数据集合;N个预存数据与N个第二数据集合一一对应,每个预存数据包括T2个第二比特组,每个第二数据集合包括M2个第二数据,第i个第二数据集合中的每个第二数据包括第i个预存数据中的T2个第二比特组,第i个第二数据集合中的M2个第二数据与从T2个第二比特组中选取j个第二比特组时的M2种组合方式一一对应;根据第一数据集合和第二数据集合,从N个预存数据中确定第一预存数据,能够降低相似数据查找过程的复杂度。【专利说明】数据处理的方法、装置和设备
本专利技术涉及数据信息
,并且更具体地,涉及数据处理的方法、装置和设 备。
技术介绍
相似检测技术广泛应用于互联网,图像识别,大数据分析和数据缩减等信息技术 (IT,Information Technology)领域。相似数据查找是相似检测技术中的重要环节。 随着对查找精度和智能性的要求,目前,该相似数据查找的输出结果需要是"相 似"的数据,即,假设所处理的数据包括α个字节(Byte),则所输出的"相似"的数据之间有β (β<α)个字节相同。其中,β可以是管理员或者系统规定的相似度阈值。 如何降低相似数据查找过程的复杂度,成为业界亟需解决的问题。
技术实现思路
本专利技术实施例提供一种数据处理的方法、装置和设备,能够降低相似数据查找过 程的复杂度,减少相似数据查找的处理时间,改善用户体验。 第一方面,提供了一种数据处理的方法,该方法包括:根据预设的相似度阈值j和 目标数据,生成第一数据集合,其中,该目标数据包括T 1个第一比特组,每个第一比特组包 括k比特,该第一数据集合包括仏个第一数据,该M1个第一数据与从该T 1个第一比特组中选 取j个第一比特组时的M1种组合方式一一对应,T1^ 2,k 2 UT1Sj 2 1;根据该相似度阈值j 和N个预存数据,生成N个第二数据集合,其中,该N个预存数据与该N个第二数据集合一一对 应,每个预存数据包括T 2个第二比特组,每个第二比特组包括k比特,每个第二数据集合包 括此个第二数据,第i个第二数据集合中的每个第二数据包括第i个预存数据中的1~ 2个第二 比特组,第i个第二数据集合中的M2个第二数据与从该T2个第二比特组中选取j个第二比特 组时的M 2种组合方式一一对应,N 2 I,T2 2 T1,i e ;根据该第一数据集合和该第二数据 集合,从该N个预存数据中确定第一预存数据,该第一预存数据和该目标数据之间相似度与 该相似度阈值j相对应,其中,该第一预存数据所对应的第二数据集合与该第一数据集合之 间包括至少一个相同的数据。 根据本专利技术实施例的数据处理的方法,通过根据目标数据确定包括仏个第一数据 的第一数据集合,并根据N个预存数据确定N个第二数据集合,其中,第一数据集合中的此个 第一数据与从包括T 1个第一比特组的目标数据中选择j个第一比特组时的M1种组合方式一 一对应,每个第二数据集合中的M 2个第二数据与从包括T2个第二比特组的预存数据中选择j 个第二比特组时的M2种组合方式一一对应,其中,j为预设的相似度阈值,从而,在一个第二 数据集合与该第一数据集合之间包括至少一个相同的数据时,能够将该第二数据集合所对 应的预存数据作为与该目标数据之间的相似度满足该相似度阈值j所对应的相似度要求的 相似数据,即,能够将相似数据查找过程转化为相同数据的判定过程,从而,能够降低相似 数据查找的复杂度,减少相似数据查找的处理时间,改善用户体验。 结合第一方面,在第一方面的第一种实现方式中,该根据预设的相似度阈值j和目 标数据,生成第一数据集合,包括:根据目标数据生成M 3个子目标数据,其中,该M3个子目标 数据与1^个第一比特组的所有可能的排列方式一一对应;根据预设的相似度阈值j和该M 3个 子目标数据,生成第一数据集合,其中,该M1个第一数据与从该M3个子目标数据中的每个子 目标数据中选取j个第一比特组时的M 1种组合方式一一对应;以及,根据该相似度阈值JlPN 个预存数据,生成N个第二数据集合,包括:根据第i个预存数据生成M4个子预存数据,其中, 该M4个子目标数据与第i个预存数据的T 2f第二比特组的所有可能的排列方式一一对应;根 据预设的相似度阈值j和每个预存数据所对应的M4个子预存数据,生成第二数据集合,其 中,第i个第二数据集合中的M 2个第二数据与从该第i个预存数据所对应的M4个子预存数据 中的每个子预存数据中选取j个第二比特组时的M 2种组合方式一一对应。 根据本专利技术实施例的数据处理的方法,通过确定目标数据中的各第一比特组所有 可能的排列方式,并确定各预存数据中的各第二比特组的所有可能的排列方式,从而能够 使该第一数据集合中的第一数据对应在目标数据的各第一比特组的所有可能排列方式下 从该T 1个第一比特组中选取j个第一比特组时的组合方式,使每个第二数据集合中的第二 数据对应在所对应的预存数据的各第二比特组的所有可能排列方式下从该T 2个第二比特 组中选取j个第二比特组时的组合方式,从而,能够提高的相似数据查找的可靠性和准确 性。 结合第一方面及其上述实现方式,在第一方面的第二种实现方式中,在根据预设 的相似度阈值j和目标数据,生成第一数据集合之前,该方法还包括:根据预设规则,对该目 标数据中的T 1个第一比特组进行排序;以及在根据预设的相似度阈值j和目标数据,生成第 一数据集合之前,该方法还包括:根据该预设规则,对每个预存数据中的T 2f第二比特组进 tx排序。 根据本专利技术实施例的数据处理的方法,通过在生成通过基于相同的预设规则对目 标数据和预存数据中的各比特组进行排序,能够确保所确定的第一数据集合和第二数据集 合中包括相同的比特组的数据中各比特组的位置也相同,从而,能够在确保相似数据查找 的可靠性和准确性的前提下,能够进一步降低相似数据查找的复杂度,减少相似数据查找 的处理时间。 结合第一方面及其上述实现方式,在第一方面的第三种实现方式中,该根据预设 的相似度阈值j和目标数据,生成第一数据集合,包括:根据预设的相似度阈值j和该第一比 特组的数量T 1,确定第一生成矩阵,该第一生成矩阵包括在第一维度方向上排列的M1个第一 向量,每个第一向量包括在第二维度方向上排列的T 1个元素,该T1个元素包括j个"Γ元素和 Tpj个"0"元素,任意两个第一向量彼此之间至少存在一个在该第二维度方向上的排列位 置不同的"0"元素或"Γ元素;根据该第一生成矩阵和目标数据,生成第一数据集合。 结合第一方面及其上述实现方式,在第一方面的第四种实现方式中,该根据该相 似度阈值j和N个预存数据,生成N个第二数据集合,包括:根据预设的相似度阈值j和该第二 比特组的数量T 2,确定第二生成矩阵,该第二生成矩阵包括在第一维度方向上排列的M2个第 二向量,每个第二向量包括在第二维度方向上排列的T 2个元素,该T2个元素包括j个"Γ元素 和T2 +j个"0"元素,任意本文档来自技高网...

【技术保护点】
一种数据处理的方法,其特征在于,所述方法包括:根据预设的相似度阈值j和目标数据,生成第一数据集合,其中,所述目标数据包括T1个第一比特组,每个第一比特组包括k比特,所述第一数据集合包括M1个第一数据,所述M1个第一数据与从所述T1个第一比特组中选取j个第一比特组时的M1种组合方式一一对应,T1≥2,k≥1,T1>j≥1;根据所述相似度阈值j和N个预存数据,生成N个第二数据集合,其中,所述N个预存数据与所述N个第二数据集合一一对应,每个预存数据包括T2个第二比特组,每个第二比特组包括k比特,每个第二数据集合包括M2个第二数据,第i个第二数据集合中的每个第二数据包括第i个预存数据中的T2个第二比特组,第i个第二数据集合中的M2个第二数据与从所述T2个第二比特组中选取j个第二比特组时的M2种组合方式一一对应,N≥1,T2≥T1,i∈[1,N];根据所述第一数据集合和所述第二数据集合,从所述N个预存数据中确定第一预存数据,所述第一预存数据和所述目标数据之间相似度与所述相似度阈值j相对应,其中,所述第一预存数据所对应的第二数据集合与所述第一数据集合之间包括至少一个相同的数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:冷继南丹尼斯·帕尔霍缅科牛进保沈建强王工艺伊万·马祖连科
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1