一种实现批量数据查重的方法、装置及芯片制造方法及图纸

技术编号:34411186 阅读:17 留言:0更新日期:2022-08-03 22:03
本文公开一种实现批量数据查重的方法、装置及芯片。实现批量数据查重的方法包括:构建包含N个数据的第一数据组以存储待查重的M个数据,所述第一数据组的前M个数据是待查重的M个数据,;设置包含P个比较器的比较器组,任意一个比较器用于比较输入的两个数据的数值大小并输出比较结果;其中,P能够整除K,;;设置包含N个元素的第一索引序列,所述第一索引序列的元素与第一数据组中的数据一一对应;利用所述比较器组对所述第一索引序列对应的数据进行N轮每轮S个周期的比较。本文的方案能够通过并行比较大大减少比较周期的个数,缩短批量数据的查重耗时。缩短批量数据的查重耗时。缩短批量数据的查重耗时。

【技术实现步骤摘要】
一种实现批量数据查重的方法、装置及芯片


[0001]本申请实施例涉及集成电路设计领域,尤其涉及一种实现批量数据查重的方法、装置及芯片。

技术介绍

[0002]对于数据查重,需要将所有数据一一比较,如果一批数据的个数为n,则需要进行的比较次数为,平方复杂度约为。
[0003]当一批数据的数据量比较大时,用集成电路实现会导致周期过多,耗时过长,成为影响系统整体吞吐量水平的瓶颈。

技术实现思路

[0004]本申请实施例提供了一种实现批量数据查重的方法,包括:构建包含N个数据的第一数据组以存储待查重的M个数据,所述第一数据组的前M个数据是待查重的M个数据;其中,, ,;设置包含P个比较器的比较器组,任意一个比较器用于比较输入的两个数据的数值大小并输出比较结果;其中,P能够整除K,;;设置包含N个元素的第一索引序列,所述第一索引序列的元素与第一数据组中的数据一一对应;利用所述比较器组对所述第一索引序列对应的数据进行N轮每轮S个周期的比较:任意第i轮第j个周期的比较中,所述比较器组中的第k个比较器输入的第一数据是第一索引序列中第一位置变量指示的位置上的元素对应的第一数据组中的数据,所述比较器组中的第k个比较器输入的第二数据是第一索引序列中第二位置变量指示的位置上的元素对应的第一数据组中的数据,第一索引序列中的第N

1个元素对应的第一数据组中的数据不输入比较器中;其中,第一索引序列中的所有元素在完成一轮比较后进行顺序移动:本轮的第t个元素成为下一轮的第个元素,本轮的第N
/>1个元素成为下一轮的第0个元素;,,,;=(j

1)*P+k;。
[0005]本申请实施例提供了一种实现批量数据查重的装置,包括:第一数据组构建模块,配置为构建包含N个数据的第一数据组以存储待查重的M个
数据,所述第一数据组的前M个数据是待查重的M个数据;其中,, ,;比较器组设置模块,配置为设置包含P个比较器的比较器组,任意一个比较器用于比较输入的两个数据的数值大小并输出比较结果;其中,P能够整除K,;;第一索引序列设置模块,配置为设置包含N个元素的第一索引序列,所述第一索引序列的元素与第一数据组中的数据一一对应;比较模块,配置为利用所述比较器组对所述第一索引序列对应的数据进行N轮每轮S个周期的比较:任意第i轮第j个周期的比较中,所述比较器组中的第k个比较器输入的第一数据是第一索引序列中第一位置变量指示的位置上的元素对应的第一数据组中的数据,所述比较器组中的第k个比较器输入的第二数据是第一索引序列中第二位置变量指示的位置上的元素对应的第一数据组中的数据,第一索引序列中的第N

1个元素对应的第一数据组中的数据不输入比较器中;其中,第一索引序列中的所有元素在完成一轮比较后进行顺序移动:本轮的第t个元素成为下一轮的第个元素,本轮的第N

1个元素成为下一轮的第0个元素;,,,;=(j

1)*P+k;。
[0006]本申请实施例提供了一种芯片,包括上述实现批量数据查重的装置。
[0007]本申请实施例提供的实现批量数据查重的方法,构建包含N个数据的第一数据组以存储待查重的M个数据,所述第一数据组的前M个数据是待查重的M个数据,;设置包含P个比较器的比较器组,任意一个比较器用于比较输入的两个数据的数值大小并输出比较结果;其中,P能够整除K,;;设置包含N个元素的第一索引序列,所述第一索引序列的元素与第一数据组中的数据一一对应;利用所述比较器组对所述第一索引序列对应的数据进行N轮每轮S个周期的比较。本申请实施例能够通过并行比较大大减少比较周期的个数,缩短批量数据的查重耗时。
[0008]在阅读并理解了附图和详细描述后,可以明白其他方面。
附图说明
[0009]附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
[0010]图1为本申请实施例的一种实现批量数据查重的方法的流程图;图2

1为本申请示例1中比较器组的输入数据的示意图(第1轮);
图2

2为本申请示例1中比较器组的输入数据的示意图(第2轮);图2

3为本申请示例1中比较器组的输入数据的示意图(第3轮);图2

4为本申请示例1中比较器组的输入数据的示意图(第8轮);图2

5为本申请示例1中比较器组的输入数据的示意图(第9轮);图2

6为本申请示例1中比较器组的输入数据的示意图(第16轮);图2

7为本申请示例1中比较器组的输入数据的示意图(第17轮);图3为本申请实施例的一种实现批量数据查重的装置的结构示意图。
具体实施方式
[0011]本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
[0012]本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由所附权利要求限定的独特的专利技术方案。任何实施例的任何特征或元件也可以与来自其它专利技术方案的特征或元件组合,以形成另一个由所附权利要求限定的独特的专利技术方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
[0013]本申请实施例提供了一种实现批量数据查重的方法。如图1所示,一种实现批量数据查重的方法,包括:步骤S10,构建包含N个数据的第一数据组以存储待查重的M个数据,所述第一数据组的前M个数据是待查重的M个数据;其中,, ,;步骤S20,设置包含P个比较器的比较器组,任意一个比较器用于比较输入的两个数据的数值大小并输出比较结果;其中,P能够整除K,;;步骤S30,设置包含N个元素的第一索引序列,所述第一索引序列的元素与第一数据组中的数据一一对应;步骤S40,利用所述比较器组对所述第一索引序列对应的数据进行N轮每轮S个周期的比较:任意第i轮第j个周期的比较中,所述比较器组中的第k个比较器输入的第一数据是第一索引序列中第一位置变量指示的位置上的元素对应的第一数据组中的数据,所述比较器组中的第k个比较器输入的第二数据是第一索引序列中第二位置变量指示的位置上的元素对应的第一数据组中的数据,第一索引序列中的第N
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实现批量数据查重的方法,包括:构建包含N个数据的第一数据组以存储待查重的M个数据,所述第一数据组的前M个数据是待查重的M个数据;其中,, ,;设置包含P个比较器的比较器组,任意一个比较器用于比较输入的两个数据的数值大小并输出比较结果;其中,P能够整除K,;;设置包含N个元素的第一索引序列,所述第一索引序列的元素与第一数据组中的数据一一对应;利用所述比较器组对所述第一索引序列对应的数据进行N轮每轮S个周期的比较:任意第i轮第j个周期的比较中,所述比较器组中的第k个比较器输入的第一数据是第一索引序列中第一位置变量指示的位置上的元素对应的第一数据组中的数据,所述比较器组中的第k个比较器输入的第二数据是第一索引序列中第二位置变量指示的位置上的元素对应的第一数据组中的数据,第一索引序列中的第N

1个元素对应的第一数据组中的数据不输入比较器中;其中,第一索引序列中的所有元素在完成一轮比较后进行顺序移动:本轮的第t个元素成为下一轮的第个元素,本轮的第N

1个元素成为下一轮的第0个元素;,,,;=(j

1)*P+k;。2.如权利要求1所述的方法,其特征在于:当时,所述第一数据组的后个数据是预设的填充数据。3.如权利要求1所述的方法,其特征在于:第一数据组的数据量N采用以下任意一种方式确定:方式一:N为预设的数值;方式二:N根据待查重的数据的数据量M确定:当M为偶数时,设置N=M+1;当M为奇数时,设置N=M;方式三:N为满足第一条件的最小整数;其中,所述第一条件为:P为预设的数值, ,K能够被P整除,。4.如权利要求1所述的方法,其特征在于:比较器组的比较器数量P采用以下任意一种方式确定:方式四:P为预设的数值;方式五:在N值已经确定的情况下, ,P能够整除K。
5.如权利要求1所述的方法,其特征在于:比较器组的比较器数量P满足:;第一数据组的数据量N满足;。6.如权利要求1所述的方法,其特征在于:所述第一索引序列的元素与第一数据组中的数据一一对应,包括:所述第一索引序列中的第e个元素对应于第一数据组中的第e个数据;。7.如权利要求1所述的方法,其特征在于:所述利用所述比较器组对所述第一索引序列对应的数据进行N轮每轮S个周期的比较,还包括:在某个比较器输出的比较结果为所述比较器输入的两个数据的数值大小相同时,将所述比较器输入的两个数据标记为重复数据对,记录并保存所述重复数据对的信息;在完成N轮比较后,对重复数据对进行统计,输出第一数据组中待查重的M个数据的数据重复统计结果。8.如权利要求7所述的方法,其特征在于:对重复数据对进行统计,包括:如果N=M,则所有的重复数据对参与统计;如果,则对任意一个重复数据对,判断所述重复数据对中的至少一个数据是否为第一数据组中的预设的填充数据,是则丢弃所述重复数据对使得所述重复数据对不参与统计,否则将所述重复数据对计入统计;其中,当时,所述第一数据组的后个数据是预设的填充数据。9.如权利要求8所述的方法,其特征...

【专利技术属性】
技术研发人员:郭海军刘明王培鑫
申请(专利权)人:中科声龙科技发展北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1