一种数据预处理方法、系统、设备以及介质技术方案

技术编号:32465708 阅读:25 留言:0更新日期:2022-02-26 09:03
本发明专利技术公开了一种数据预处理方法,包括以下步骤:响应于接收到一组待写入的数据,计算组内每一个位置的数据对应的哈希值以得到对应的一组哈希值;依次将组内每一个位置的哈希值分别与所有位置的哈希值进行对比以得到每一个位置的哈希值对应的一组对比结果;利用每一组对比结果构建初始分组矩阵,其中分组矩阵中的第i行或第j列为组内第i个哈希值或第j个哈希值对应的对比结果;过滤所述初始分组矩阵中重复的行或列以得到最终分组矩阵;利用所述最终分组矩阵对所述一组待写入的数据进行分组以得到多个哈希分组,并对每一个哈希分组中的数据进行迁移。本发明专利技术还公开了一种系统、计算机设备以及可读存储介质。算机设备以及可读存储介质。算机设备以及可读存储介质。

【技术实现步骤摘要】
一种数据预处理方法、系统、设备以及介质


[0001]本专利技术涉及存储领域,具体涉及一种数据预处理方法、系统、设备以及存储介质。

技术介绍

[0002]哈希表是一种常用的数据结构,主要用于信息加密或者数据查表中。哈希表根据数据的关键码值对数据进行直接的访问。存储数据时,首先将该数据的关键码值与数据存储位置建立一个映射关系,然后将数据存储到该位置中;读取时,首先获取待查询的数据的关键码值,然后按相同的方法计算出存储位置,然后去读该数据。这种由关键码值和存储地址的映射关系构建的数据存储结构叫做哈希表,该映射关系被称为哈希函数,存储位置被称为哈希地址,即:哈希地址=H(码值)。
[0003]每个存储位置记录一个数据是一种常见的哈希表形式,然而,也有很多应用场景下,不同的数据会映射到同一个存储位置,这种现象叫做哈希碰撞(即不同的数据通过同一哈希函数计算之后,得到的哈希地址相同)。这些碰撞的数据往往使用链表的形式进行存放,因此,这种哈希表也称为哈希链表。
[0004]目前硬件实现通常以RAM为基础实现哈希链表的存储,RAM的地址位宽等于哈本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据预处理方法,其特征在于,包括以下步骤:响应于接收到一组待写入的数据,计算组内每一个位置的数据对应的哈希值以得到对应的一组哈希值;依次将组内每一个位置的哈希值分别与所有位置的哈希值进行对比以得到每一个位置的哈希值对应的一组对比结果;利用每一组对比结果构建初始分组矩阵,其中分组矩阵中的第i行或第j列为组内第i个哈希值或第j个哈希值对应的对比结果;过滤所述初始分组矩阵中重复的行或列以得到最终分组矩阵;利用所述最终分组矩阵对所述一组待写入的数据进行分组以得到多个哈希分组,并对每一个哈希分组中的数据进行迁移。2.如权利要求1所述的方法,其特征在于,依次将组内每一个位置的哈希值分别与所有位置的哈希值进行对比以得到每一个位置的哈希值对应的一组对比结果,进一步包括:响应于进行对比的两个位置的哈希值相同,将对比结果记为第一预设值;响应于进行对比的两个位置的哈希值不相同,将对比结果记为第二预设值。3.如权利要求2所述的方法,其特征在于,过滤所述初始分组矩阵中重复的行或列以得到最终分组矩阵,进一步包括:将所述初始分组矩阵中重复的行或列中的所有元素修改为第二预设值以得到最终分组矩阵。4.如权利要求3所述的方法,其特征在于,将所述初始分组矩阵中重复的行中的所有元素修改为第二预设值以得到最终分组矩阵,进一步包括:利用计算掩码,其中i表示行,cmp_result[i][i

1]表示初始分组矩阵第i行第i

1列的元素,表示或运算;响应于所述掩码中第i行的值为非零值,将所述初始分组矩阵中的第i行的所有元素修改为第二预设值。5.如权利要求3所述的方法,其特征在于,将所述初始分组矩阵中重复的列中的所有元素修改为第二预设值以得到最终分组矩阵,进一步包括:利用计算掩码,其中j表示列,cmp_result[j

1][j]表示初始分组矩阵第j

1行第j列的元素,表示或运算;响应于所述掩码中第j列的值为非零值,将所述初始分组矩阵中的第j列的所有元素修改为第二预设值。6.如权利要求1所述的方法,其特征在于,利用所述最终分组矩阵对所述一组待写入的数据进行分组以得到多个哈希分组,进一步包括:根据所述最终分组矩阵中的每一行或每一列进行分组,得到的每一个哈希分组中所包括的数据为相应行或列中元素值为第一预设值的元素所在的位置对应的数据。7.如权利要求1所述的方法,其特征在于,对每一个哈希分组中的数据进行迁移,进一步包括:

【专利技术属性】
技术研发人员:张磊王凛
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1