【技术实现步骤摘要】
本专利技术涉及大数据处理,尤其涉及一种大数据建库方法、装置、设备及存储介质。
技术介绍
1、为了方便查找,把数据按照特定格式组织在一起(即构建数据查询的索引)的动作被称为建库(例如kv引擎为了加速查找,需要建立索引,只不过搜索引擎的索引更复杂,建库难度更高),而因为数据量巨大,不能一天完成索引构建,需要每天构建一部分索引,在一定周期内完成全量的建库,此种方式被称为滚动建库。
2、通常搜索参与索引构建的网页候选集巨大,有上千亿(所有网页有万亿),这些网页数据会涉及大量的批量操作,增、删、扫库等,因为数据保存在大数据网页存储库中,要完成全量建库,需要把数据从大数据网页存储库中扫描(scan)出来,这个过程称为扫库;
3、而因为需要扫描的数据量级极大,直接进行扫库失败率较高,如何保证可以高效、灵活、稳定的进行扫库,是完成滚动建库的前提。
技术实现思路
1、本专利技术的主要目的在于提供一种大数据建库方法、装置、设备及存储介质,旨在解决现有技术无法实现高效、灵活、稳定的扫库的
<本文档来自技高网...【技术保护点】
1.一种大数据建库方法,其特征在于,所述大数据建库方法包括以下步骤:
2.如权利要求1所述的大数据建库方法,其特征在于,所述从大数据网页存储库中提取所述扫描区域对应的待处理数据的步骤,包括:
3.如权利要求2所述的大数据建库方法,其特征在于,所述根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域的步骤,包括:
4.如权利要求2所述的大数据建库方法,其特征在于,所述从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据的步骤,包括:
5.如权利要求1所述的大数据建库方法,其特征在于,所述根据所述待处理数
...【技术特征摘要】
1.一种大数据建库方法,其特征在于,所述大数据建库方法包括以下步骤:
2.如权利要求1所述的大数据建库方法,其特征在于,所述从大数据网页存储库中提取所述扫描区域对应的待处理数据的步骤,包括:
3.如权利要求2所述的大数据建库方法,其特征在于,所述根据所述过滤规则对所述字段组数据进行过滤,确定待读取区域的步骤,包括:
4.如权利要求2所述的大数据建库方法,其特征在于,所述从所述大数据网页存储库中读取所述待读取区域对应的数据,获得待处理数据的步骤,包括:
5.如权利要求1所述的大数据建库方法,其特征在于,所述根据所述待处理数据生成建库数据的步骤,包括:
6.如权利要求5所述的大数据建库方法,其特征在于,所述根据所述标记映射文件、所述数据映射文...
【专利技术属性】
技术研发人员:王勇,马凯权,
申请(专利权)人:北京奇虎科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。