一种可扩展的高速并行查找相等数据的处理方法与装置制造方法及图纸

技术编号：35826014 阅读：18 留言：0更新日期：2022-12-03 13:53

本发明专利技术公开了一种可扩展的高速并行查找相等数据的处理装置和方法，包括用于对输入的数据进行分桶处理的分桶逻辑电路、以及用于将分桶处理后的数据分别进行存储的若干分桶。本发明专利技术先将输入的数据按照数据粗粒度的大小分配到若干个分桶中；然后根据接收数据的数值，建立链表，将每个分桶中相同数值的数据使用链表的方式进行串联；最后根据链表，收集并输出相同数据的序号。本发明专利技术采用分桶逻辑电路和分桶对数据进行处理，可以让数据处理并行进行，加快获得结果的速度，再以链表方式找相同数据，可免掉数据预排序。可免掉数据预排序。可免掉数据预排序。

全部详细技术资料下载

【技术实现步骤摘要】
一种可扩展的高速并行查找相等数据的处理方法与装置

[0001]本专利技术涉及数据处理领域，尤其涉及到一种可扩展的高速并行查找相等数据的处理方法与装置。

技术介绍

[0002]所谓“生日问题”，是指从n个(n＞10000)数据中，找到数值相同的数据，输出数值相等数据的序号。例如：输入21个数据，他们的序号和数值分别如下：
[0003]序号数值04215421253274751576189717583191241016411217121161342147154216717421871942207
[0004]需要的输出结果应当是：{{0，13，15，17，19}，{4，14，16，18，20}}。
[0005]现有的方法是：先对n个数据按照数值进行排序，然后按照从小到大的顺序逐个进行比较，提取出相等数据的序列号。
[0006]在要求使用硬件电路实现，并且n>＝10000的场景下，现有排序输出相等数据方法的缺陷在于：
[0007]1.传统排序方法只能串行处理数据，当n很大的时候，延时将会非常大(快速排序的复杂度为O(nlog2(n))。
[0008]2.排序之后，获取相等数据原始index仍然需要对排序后的数据进行比较，当n很大的时候，数据的位宽也会变得很大，这会让比较器的时序变差，使得系统的可扩展性变差。
[0009]3.获取相同数据的原始index需要的延时仍是O(nlog2(n))的复杂度。
[0010]因此，我们有必要对现有方法进行改善，...

【技术保护点】

【技术特征摘要】
1.一种可扩展的高速并行查找相等数据的处理装置，其特征在于，包括用于对输入的数据进行分桶处理的分桶逻辑电路、以及用于将分桶处理后的数据分别进行存储的若干分桶；所述分桶逻辑电路为除法器，其根据输入数据的数值和分桶个数的除法结果的商的值，将数据路由到对应的分桶中；每个所述分桶均具有处理逻辑电路，其包括用于建立链表的关键存储装置的地址簿、用于存储输入的数据的序号和相同数据组成链表的指针的数据存储器、以及用于标记数据存储器中有效行的有效标记存储器。2.一种如权利要求1所述可扩展的高速并行查找相等数据的处理装置的处理方法，其特征在于，包括如下步骤：1)分桶：将输入的数据按照数据粗粒度的大小分配到若干个分桶中；2)建立链表：根据接收数据的数值，建立链表，将每个分桶中相同数值的数据使用链表的方式进行串联；3)收集相等数据：根据链表，收集并输出相同数据的序号。3.根据权利要求2所述的可扩展的高速并行查找相等数据的处理方法，其特征在于，所述步骤1)的具体方法如下：设数据的数值分布在0～9999之间，设置分桶的个数为n＝10；分桶逻辑电路会将每个输入数据的数值除以1000，根据得到的商x，x分布在0～9之间，然后将输入的数据送往对应的分桶x中；除法得到的余数作为进入地址簿的读地址。4.根据权利要求2所述的可扩展的高速并行查找相等数据的处理方法，其特征在于，所述步骤2...

【专利技术属性】
技术研发人员：顾仁萍，朱爱勇，俞思伟，
申请(专利权)人：上海健康医学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人