【技术实现步骤摘要】
数据存储方法、数据查询方法、装置和设备
[0001]本公开涉及计算机
,尤其涉及大搜索、信息检索等
技术介绍
[0002]索引模块是搜索召回模块最重要的组成部分之一,负责完成对数据的获取,供后续排序、展现等使用。在建立索引时,可以通过资源标识符(如url id)对数据进行唯一标识。然后可以采用倒排索引结构,即按照资源标识符单调递增的顺序存放数据,查询时可根据查询算法定位待查询数据的资源标识符,并获取对应的待查询数据。另外,还可以通过特定的压缩算法对数据进行压缩,在获取数据时按照相应的解压算法进行解压。因此,查询算法复杂度和解压缩算法的复杂度共同影响数据检索的复杂度。
技术实现思路
[0003]本公开提供了一种数据存储方法、数据查询方法、装置、设备、存储介质以及程序产品。
[0004]根据本公开的一方面,提供了一种数据存储方法,包括:将多个待存储数据划分为多个数据段,其中,所述多个数据段中的每个数据段包括至少一个所述待存储数据;针对所述每个数据段,对所述数据段中的待存储数据进行线性拟合, ...
【技术保护点】
【技术特征摘要】
1.一种数据存储方法,包括:将多个待存储数据划分为多个数据段,其中,所述多个数据段中的每个数据段包括至少一个所述待存储数据;针对所述每个数据段,对所述数据段中的待存储数据进行线性拟合,得到拟合线段和所述拟合线段的线段系数;确定所述数据段中每个待存储数据与所述拟合线段之间的偏差值;根据与所述每个数据段对应的线段系数和偏差值,生成索引数据;以及存储所述索引数据。2.根据权利要求1所述的方法,其中,所述将多个待存储数据划分为多个数据段包括:获取多个候选分段方案;确定所述多个候选分段方案中每个候选分段方案的空间消耗估计量;根据所述多个候选分段方案的空间消耗估计量,确定所述多个候选分段方案中的目标分段方案;以及根据所述目标分段方案,将多个待存储数据划分为多个数据段。3.根据权利要求2所述的方法,其中,所述确定所述多个候选分段方案中每个候选分段方案的空间消耗估计量,包括:针对所述每个候选分段方案,根据所述候选分段方案将所述多个待存储数据划分为多个参考数据段;针对所述多个参考数据段中的每个参考数据段,确定所述每个参考数据段中比特数最大的参考数据;以及计算所述每个参考数据段中待存储数据的数量和所述参考数据的比特数之间的乘积,作为所述候选分段方案的空间消耗估计量。4.根据权利要求1所述的方法,其中,所述对所述数据段中的待存储数据进行线性拟合,得到拟合线段和所述拟合线段的线段系数,包括:根据所述数据段中每个待存储数据的序号和数值,确定原始点;根据所述原始点,确定所述拟合线段;以及确定所述拟合线段的起始位置、斜率和截距,作为所述拟合线段的线段系数。5.根据权利要求4所述的方法,其中,所述确定所述数据段中每个待存储数据与所述拟合线段之间的偏差值,包括:针对所述每个待存储数据,确定所述拟合线段中与所述待存储数据对应的拟合点;以及确定与所述待存储数据对应的原始点到所述拟合点之间的距离,作为所述待存储数据与所述拟合线段之间的偏差值。6.根据权利要求1所述的方法,还包括:针对所述每个数据段,确定与所述数据段对应的偏差值中比特数最大的标准偏差值;以及根据所述标准偏差值的比特数,对与所述数据段对应的偏差值进行压缩。7.根据权利要求1
‑
6中任一项所述的方法,其中,索引数据包括:段信息和偏差数据;所
述根据与所述每个数据段对应的偏差值和线段系数,生成索引数据,包括:根据所述每个数据段的起始位置、终止位置,以及与所述每个数据段对应的线段系数,确定所述索引数据的段信息;以及根据与所述每个数据段对应的偏差值,确定所述索引数据的偏差数据。8.一种数据查询方法,包括:获取待查询数据标识;在索引数据中查找与所述待查询数据标识对应的目标线段系数和目标偏差值,其中,所述索引数据是根据权利要求1
‑
7中任一项所述的方法存储的;以及根据所述目标线段系数和所述目标偏差值,确定目标数据。9.根据权利要求8所述的方法,其中,所述在索引数据中查找与所述待查询数据标识对应的目标线段系数和目标偏差值,包括:获取最...
【专利技术属性】
技术研发人员:徐文栋,梁津,孙鹏宇,杨文博,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。