System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大数据量去重接口数据采集方法、装置、设备及存储介质制造方法及图纸_技高网

大数据量去重接口数据采集方法、装置、设备及存储介质制造方法及图纸

技术编号:40121999 阅读:6 留言:0更新日期:2024-01-23 20:48
本发明专利技术公开了一种大数据量去重接口数据采集方法、装置、设备及存储介质,该方法包括:采集接口数据、数据标识、建立数据索引和数据去重;本发明专利技术通过配置的接口信息,以分片广播的任务执行方式循环获取接口数据,再通过计算每条数据的散列值,用以生成每条数据的唯一标识,最后利用位图数据结构建立数据索引,以此判断数据是否重复,由此,能够提高数据质量,节省存储空间,提高数据采集效率,具有空间利用率高、时间效率高等优点,能够快速准确地判断重复数据,提高了数据采集的效率和准确性,特别适合大数据量的去重判断。

【技术实现步骤摘要】

本专利技术涉及计算机软件,尤其涉及到一种大数据量去重接口数据采集方法、装置、设备及存储介质


技术介绍

1、随着信息技术的迅猛发展和互联网的广泛应用,大数据量的信息产生和传输已经成为日常生活和商业活动的重要组成部分。众多应用场景需要采集来自各种数据接口的信息,包括但不限于传感器、网络服务、社交媒体、物联网设备、数据库查询等。

2、然而,随着数据量的增加,数据采集过程面临一系列挑战。其中之一是数据的重复和冗余,即相同或类似的数据可能会被多次采集,导致数据存储和传输的浪费。另一个挑战是数据质量的问题,包括数据的完整性、准确性和一致性。因此,开发一种高效的大数据量后去重的接口数据采集方法具有重要意义。


技术实现思路

1、本专利技术的主要目的在于提供一种大数据量去重接口数据采集方法、装置、设备及存储介质,用于从不同来源的数据接口中采集数据并去除冗余信息,以提高数据质量和分析效率。

2、为实现上述目的,本专利技术提供一种大数据量去重接口数据采集方法,所述方法包括以下步骤:

3、采集接口数据,根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;

4、数据标识,使用sha-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;

5、建立数据索引,创建一个10亿大小比特数组的位图数据结构bitset,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将bitset中数据标识对应的数据下标位置置为1,最后将bitset放入内存完成数据索引建立;

6、数据去重,对于获取到bitset数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到bitset数据等于0的数据标识,则说明当前数据不存在,放入插入队列。

7、可选的,采集接口数据步骤中,具体包括:对于大数据量,采用分页返回的接口数据,支持多个执行器以分布式的方式同时对该接口循环获取数据,并将数据暂存到消息中间件,以此方式来应对大数据量,高并发的接口数据获取。

8、可选的,数据去重步骤,具体包括:在数据去重过程中的插入队列,是一个arraylist,用于暂时缓存去重后的数据,达到一定量后,统一批量存储到数据库。

9、可选的,建立数据索引步骤之后,所述方法,还包括:

10、数据比对,从消息中间件读取新采集的数据,并将其数据标识作为下标获取bitset中对应位置的数据进行判断。

11、可选的,数据去重步骤之后,所述方法,还包括:

12、数据存储,从插入队列读取去重后的数据,每当插入对接的数据条数达到2000条,将数据批量存储到数据库中。

13、此外,为了实现上述目的,本专利技术还提供了一种大数据量去重接口数据采集装置,包括:

14、接口数据采集模块,用于根据配置的接口信息,通过http/https网络请求技术请求接口,部署多个任务执行器,以分片广播的任务执行方式,循环获取接口数据,并将采集到的数据暂存到消息中间件;

15、数据标识模块,用于使用sha-256散列函数算法,对接口返回的每条数据中计算得到256位二进制的散列值,将散列值转换为一个77位长度的数字得到原始标识,再取前19位得到运算标识,最后用原始标识对运算标识进行取模运算,最终得到19位长度的数据标识,以此作为本条数据的唯一标识;

16、数据索引建立,用于创建一个10亿大小比特数组的位图数据结构bitset,将数据标识对10亿做取模运算,得到一个1-10亿的数字,作为数据下标;将bitset中数据标识对应的数据下标位置置为1,最后将bitset放入内存完成数据索引建立;

17、数据去重模块,用于对于获取到bitset数据等于1的数据标识,则说明当前数据已经存在,本次不再进行处理;对于获取到bitset数据等于0的数据标识,则说明当前数据不存在,放入插入队列。

18、此外,为了实现上述目的,本专利技术还提供了一种大数据量去重接口数据采集设备,所述大数据量去重接口数据采集设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被所述处理器执行时实现如上所述的大数据量去重接口数据采集方法的步骤。

19、此外,为了实现上述目的,本专利技术还提供了一种存储介质,所述存储介质上存储有大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被处理器执行时实现上述的大数据量去重接口数据采集方法的步骤。

20、本专利技术的有益效果在于:

21、(1)提高数据质量:通过去除重复和冗余数据,本方法可以显著提高采集的数据质量,使得分析更加准确和可靠。

22、(2)节省存储空间:去重后的数据占用更少的存储空间,降低了存储成本。

23、(3)提高效率:去重操作可以减少数据处理和分析的时间,提高了数据采集的效率。

24、(4)适用广泛:本方法可以应用于各种数据类型和领域,为各行业的数据分析提供了强大的支持。

25、(5)采用bitset的位图数据结构进行去重标识存储,具有空间利用率高、时间效率高等优点,能够快速准确地判断重复数据,提高了数据采集的效率和准确性,特别适合大数据量的去重判断。

26、(6)适用于大数据量的接口数据采集,能够满足大规模数据采集的需求。

本文档来自技高网...

【技术保护点】

1.一种大数据量去重接口数据采集方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,采集接口数据步骤中,具体包括:对于大数据量,采用分页返回的接口数据,支持多个执行器以分布式的方式同时对该接口循环获取数据,并将数据暂存到消息中间件,以此方式来应对大数据量,高并发的接口数据获取。

3.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,数据去重步骤,具体包括:在数据去重过程中的插入队列,是一个ArrayList,用于暂时缓存去重后的数据,达到一定量后,统一批量存储到数据库。

4.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,建立数据索引步骤之后,所述方法,还包括:

5.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,数据去重步骤之后,所述方法,还包括:

6.一种大数据量去重接口数据采集装置,其特征在于,包括:

7.一种大数据量去重接口数据采集设备,其特征在于,所述大数据量去重接口数据采集设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被所述处理器执行时实现如权利要求1至5中任一项所述的大数据量去重接口数据采集方法的步骤。

8.一种存储介质,其特征在于,所述存储介质上存储有大数据量去重接口数据采集程序,所述大数据量去重接口数据采集程序被处理器执行时实现如权利要求1至5中任一项所述的大数据量去重接口数据采集方法的步骤。

...

【技术特征摘要】

1.一种大数据量去重接口数据采集方法,其特征在于,所述方法包括以下步骤:

2.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,采集接口数据步骤中,具体包括:对于大数据量,采用分页返回的接口数据,支持多个执行器以分布式的方式同时对该接口循环获取数据,并将数据暂存到消息中间件,以此方式来应对大数据量,高并发的接口数据获取。

3.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,数据去重步骤,具体包括:在数据去重过程中的插入队列,是一个arraylist,用于暂时缓存去重后的数据,达到一定量后,统一批量存储到数据库。

4.如权利要求1所述的大数据量去重接口数据采集方法,其特征在于,建立数据索引步骤之后,所述方法,还包括:

【专利技术属性】
技术研发人员:罗钦周欣黄磊罗强陈星
申请(专利权)人:创意信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1