System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大数据建库方法、装置、设备及存储介质制造方法及图纸_技高网

大数据建库方法、装置、设备及存储介质制造方法及图纸

技术编号:41236472 阅读:3 留言:0更新日期:2024-05-09 23:50
本发明专利技术属于大数据处理技术领域,公开了一种大数据建库方法、装置、设备及存储介质。本发明专利技术通过根据当前扫库任务对应的桶编号确定扫描区域;从大数据网页存储库中提取扫描区域对应的待处理数据;根据待处理数据生成建库数据;将建库数据推送至建库路径进行存储,以使建库程序根据建库数据进行建库。由于是将大数据网页存储库中的数据分片为多个桶,令每个扫库任务仅需扫描其桶对应的数据即可,从而降低了每次进行扫描时的数据量,降低了失败概率,减小了失败的后果,提高了大数据建库的可靠性,并使其可以分批上线、单独上线个别桶,提高了大数据建库的灵活性。

【技术实现步骤摘要】

本专利技术涉及大数据处理,尤其涉及一种大数据建库方法、装置、设备及存储介质


技术介绍

1、为了方便查找,把数据按照特定格式组织在一起(即构建数据查询的索引)的动作被称为建库(例如kv引擎为了加速查找,需要建立索引,只不过搜索引擎的索引更复杂,建库难度更高),而因为数据量巨大,不能一天完成索引构建,需要每天构建一部分索引,在一定周期内完成全量的建库,此种方式被称为滚动建库。

2、通常搜索参与索引构建的网页候选集巨大,有上千亿(所有网页有万亿),这些网页数据会涉及大量的批量操作,增、删、扫库等,因为数据保存在大数据网页存储库中,要完成全量建库,需要把数据从大数据网页存储库中扫描(scan)出来,这个过程称为扫库;

3、而因为需要扫描的数据量级极大,直接进行扫库失败率较高,如何保证可以高效、灵活、稳定的进行扫库,是完成滚动建库的前提。


技术实现思路

1、本专利技术的主要目的在于提供一种大数据建库方法、装置、设备及存储介质,旨在解决现有技术无法实现高效、灵活、稳定的扫库的技术问题。

2、为实现上述目的,本专利技术提供了一种大数据建库方法,所述方法包括以下步骤:

3、根据当前扫库任务对应的桶编号确定扫描区域;

4、从大数据网页存储库中提取所述扫描区域对应的待处理数据;

5、根据所述待处理数据生成建库数据;

6、将所述建库数据推送至建库路径进行存储,以使建库程序根据所述建库数据进行建库。

7、可选的,所述从大数据网页存储库中提取所述扫描区域对应的待处理数据的步骤,包括:

8、检测所述当前扫库任务是否存在对应的过滤规则;

9、若存在,则获取所述过滤规则对应的字段组;

10、读取大数据网页存储库中所述扫描区域对应数据的所述字段组,获得字段组数据;

11、根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域;

12、从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据。

13、可选的,所述根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域的步骤,包括:

14、根据所述过滤规则对所述字段组数据进行过滤,获得过滤字段组数据;

15、根据各过滤字段组数据对应的数据行号确定待读取区域。

16、可选的,所述从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据的步骤,包括:

17、从所述大数据网页存储库中读取所述待读取区域对应数据的非过滤字段组,获得非过滤数据;

18、从所述字段组数据中提取所述待读取区域的过滤字段组数据;

19、根据所述非过滤数据及所述过滤字段组数据构建待处理数据。

20、可选的,所述根据所述待处理数据生成建库数据的步骤,包括:

21、根据各待处理数据对应的权重数据对所述待处理数据进行分组,获得多个待处理数据子集;

22、生成各待处理数据子集对应的标记映射文件、数据映射文件及地址映射文件;

23、根据所述标记映射文件、所述数据映射文件及所述地址映射文件构建建库数据。

24、可选的,所述根据所述标记映射文件、所述数据映射文件及所述地址映射文件构建建库数据的步骤,包括:

25、依据各待处理数据子集对应的分组顺序及集合元素数量对各待处理数据子集对应的标记映射文件进行更新,获得各待处理数据子集对应的真实标记映射文件;

26、根据所述真实标记映射文件、所述数据映射文件及所述地址映射文件构建建库数据。

27、可选的,所述根据各待处理数据对应的权重数据对所述待处理数据进行分组,获得多个待处理数据子集的步骤,包括:

28、将各待处理数据对应的权重数据与预设权重区间进行匹配,确定各待处理数据归属的权重区间;

29、将归属于同一权重区间的待处理数据分为同一组,获得多个待处理数据子集。

30、可选的,所述将各待处理数据对应的权重数据与预设权重区间进行匹配,确定各待处理数据归属的权重区间的步骤之前,还包括:

31、获取预设数量的历史建库数据;

32、根据所述历史建库数据对应的权重数据对所述历史建库数据进行排序,获得排序建库数据;

33、对所述排序建库数据进行正态分布拟合,确定预设权重区间。

34、可选的,所述根据当前扫库任务对应的桶编号确定扫描区域的步骤,包括:

35、获取单桶数据总量,并获取当前扫库任务对应的桶编号;

36、根据所述单桶数据总量及所述桶编号确定起始数据行号及结束数据行号;

37、根据所述起始数据行号及所述结束数据行号确定扫描区域。

38、可选的,所述获取单桶数据总量的步骤,包括:

39、获取预设分桶数量;

40、根据所述预设分桶数量对行号最大取值进行等分,获得单桶数据总量。

41、可选的,所述将所述建库数据推送至建库路径进行存储,以使建库程序根据所述建库数据进行建库的步骤,包括:

42、获取索引存储路径;

43、根据所述索引存储路径构建索引路径文件;

44、将所述建库数据及所述索引路径文件推送至建库路径进行存储,以使建库程序根据所述建库数据进行建库,并将建库生成的索引数据存储至所述索引存储路径。

45、此外,为实现上述目的,本专利技术还提出一种大数据建库装置,所述大数据建库装置包括以下模块:

46、确定模块,用于根据当前扫库任务对应的桶编号确定扫描区域;

47、提取模块,用于从大数据网页存储库中提取所述扫描区域对应的待处理数据;

48、生成模块,用于根据所述待处理数据生成建库数据;

49、推送模块,用于将所述建库数据推送至建库路径进行存储,以使建库程序根据所述建库数据进行建库。

50、可选的,所述提取模块,还用于检测所述当前扫库任务是否存在对应的过滤规则;若存在,则获取所述过滤规则对应的字段组;读取大数据网页存储库中所述扫描区域对应数据的所述字段组,获得字段组数据;根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域;从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据。

51、可选的,所述提取模块,还用于根据所述过滤规则对所述字段组数据进行过滤,获得过滤字段组数据;根据各过滤字段组数据对应的数据行号确定待读取区域。

52、可选的,所述提取模块,还用于从所述大数据网页存储库中读取所述待读取区域对应数据的非过滤字段组,获得非过滤数据;从所述字段组数据中提取所述待读取区域的过滤字段组数据;根据所述非过滤数据及所述过滤字段组数据构建待处理数据。

53、可选的,所述生成模块,还用于根据各待处理数据对应的权重数据对所述待处理数据进行分组,获得多个待处理数本文档来自技高网...

【技术保护点】

1.一种大数据建库方法,其特征在于,所述大数据建库方法包括以下步骤:

2.如权利要求1所述的大数据建库方法,其特征在于,所述从大数据网页存储库中提取所述扫描区域对应的待处理数据的步骤,包括:

3.如权利要求2所述的大数据建库方法,其特征在于,所述根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域的步骤,包括:

4.如权利要求2所述的大数据建库方法,其特征在于,所述从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据的步骤,包括:

5.如权利要求1所述的大数据建库方法,其特征在于,所述根据所述待处理数据生成建库数据的步骤,包括:

6.如权利要求5所述的大数据建库方法,其特征在于,所述根据所述标记映射文件、所述数据映射文件及所述地址映射文件构建建库数据的步骤,包括:

7.如权利要求5所述的大数据建库方法,其特征在于,所述根据各待处理数据对应的权重数据对所述待处理数据进行分组,获得多个待处理数据子集的步骤,包括:

8.一种大数据建库装置,其特征在于,所述大数据建库装置包括以下模块:

9.一种大数据建库设备,其特征在于,所述大数据建库设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的大数据建库程序,所述大数据建库程序被处理器执行时实现如权利要求1-7中任一项所述的大数据建库方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有大数据建库程序,所述大数据建库程序执行时实现如权利要求1-7中任一项所述的大数据建库方法的步骤。

...

【技术特征摘要】

1.一种大数据建库方法,其特征在于,所述大数据建库方法包括以下步骤:

2.如权利要求1所述的大数据建库方法,其特征在于,所述从大数据网页存储库中提取所述扫描区域对应的待处理数据的步骤,包括:

3.如权利要求2所述的大数据建库方法,其特征在于,所述根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域的步骤,包括:

4.如权利要求2所述的大数据建库方法,其特征在于,所述从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据的步骤,包括:

5.如权利要求1所述的大数据建库方法,其特征在于,所述根据所述待处理数据生成建库数据的步骤,包括:

6.如权利要求5所述的大数据建库方法,其特征在于,所述根据所述标记映射文件、所述数据映射文...

【专利技术属性】
技术研发人员:王勇马凯权
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1