大数据建库方法、装置、设备及存储介质制造方法及图纸

技术编号:41236472 阅读:20 留言:0更新日期:2024-05-09 23:50
本发明专利技术属于大数据处理技术领域,公开了一种大数据建库方法、装置、设备及存储介质。本发明专利技术通过根据当前扫库任务对应的桶编号确定扫描区域;从大数据网页存储库中提取扫描区域对应的待处理数据;根据待处理数据生成建库数据;将建库数据推送至建库路径进行存储,以使建库程序根据建库数据进行建库。由于是将大数据网页存储库中的数据分片为多个桶,令每个扫库任务仅需扫描其桶对应的数据即可,从而降低了每次进行扫描时的数据量,降低了失败概率,减小了失败的后果,提高了大数据建库的可靠性,并使其可以分批上线、单独上线个别桶,提高了大数据建库的灵活性。

【技术实现步骤摘要】

本专利技术涉及大数据处理,尤其涉及一种大数据建库方法、装置、设备及存储介质


技术介绍

1、为了方便查找,把数据按照特定格式组织在一起(即构建数据查询的索引)的动作被称为建库(例如kv引擎为了加速查找,需要建立索引,只不过搜索引擎的索引更复杂,建库难度更高),而因为数据量巨大,不能一天完成索引构建,需要每天构建一部分索引,在一定周期内完成全量的建库,此种方式被称为滚动建库。

2、通常搜索参与索引构建的网页候选集巨大,有上千亿(所有网页有万亿),这些网页数据会涉及大量的批量操作,增、删、扫库等,因为数据保存在大数据网页存储库中,要完成全量建库,需要把数据从大数据网页存储库中扫描(scan)出来,这个过程称为扫库;

3、而因为需要扫描的数据量级极大,直接进行扫库失败率较高,如何保证可以高效、灵活、稳定的进行扫库,是完成滚动建库的前提。


技术实现思路

1、本专利技术的主要目的在于提供一种大数据建库方法、装置、设备及存储介质,旨在解决现有技术无法实现高效、灵活、稳定的扫库的技术问题。

<本文档来自技高网...

【技术保护点】

1.一种大数据建库方法,其特征在于,所述大数据建库方法包括以下步骤:

2.如权利要求1所述的大数据建库方法,其特征在于,所述从大数据网页存储库中提取所述扫描区域对应的待处理数据的步骤,包括:

3.如权利要求2所述的大数据建库方法,其特征在于,所述根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域的步骤,包括:

4.如权利要求2所述的大数据建库方法,其特征在于,所述从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据的步骤,包括:

5.如权利要求1所述的大数据建库方法,其特征在于,所述根据所述待处理数据生成建库数据的步骤...

【技术特征摘要】

1.一种大数据建库方法,其特征在于,所述大数据建库方法包括以下步骤:

2.如权利要求1所述的大数据建库方法,其特征在于,所述从大数据网页存储库中提取所述扫描区域对应的待处理数据的步骤,包括:

3.如权利要求2所述的大数据建库方法,其特征在于,所述根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域的步骤,包括:

4.如权利要求2所述的大数据建库方法,其特征在于,所述从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据的步骤,包括:

5.如权利要求1所述的大数据建库方法,其特征在于,所述根据所述待处理数据生成建库数据的步骤,包括:

6.如权利要求5所述的大数据建库方法,其特征在于,所述根据所述标记映射文件、所述数据映射文...

【专利技术属性】
技术研发人员:王勇马凯权
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1