System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于增量采样的近似查询方法、装置及设备制造方法及图纸_技高网

一种基于增量采样的近似查询方法、装置及设备制造方法及图纸

技术编号:40193318 阅读:7 留言:0更新日期:2024-01-26 23:55
本说明书提供了一种基于增量采样的近似查询方法、装置及设备,涉及近似查询处理技术领域。该方法基于查询请求及谓词自适应查询策略,确定与查询请求相对应的谓词条件,并从样本存储库中查找与谓词条件相匹配的历史样本;若样本存储库中存在部分覆盖谓词条件的样本,则部分样本重用,并对没有覆盖到的谓词条件进行延迟增量采样;基于在线‑离线样本合并算法,将部分覆盖样本与延迟增量采样后的在线样本进行合并,得到与查询请求相匹配的样本集。解决了现有离线近似查询、在线近似查询方法在不可预测性的条件下无法兼顾查询精度和查询速度的问题。该采用部分重用、明智采样、延迟和最小浪费的思想,使之能够结合在线与离线采样系统的优点。

【技术实现步骤摘要】

本文件涉及近似查询处理,尤其涉及一种基于增量采样的近似查询方法、装置及设备


技术介绍

1、现代数据分析引擎依赖于近似查询处理,以在超出硬件能力的情况下提供更快的响应时间来回答精确查询。近似查询处理旨在大规模数据集中寻找与给定查询相似但不必完全匹配的结果。这种技术对于在实际应用中需要高效处理大量数据的情况下非常有用,因为它可以在牺牲一定的精确性的前提下,显著减少查询所需的计算资源和时间。

2、目前,基于样本的近似查询处理分为在线处理和离线处理两种。在线近似查询在查询执行过程中进行采样,根据具体查询构建特定样本,不需要提前对工作负载进行预测,可以处理交互式和不可预测的查询工作负载,在查询计划中插入采样运算符,在数据处理前进行数据减量,优点是可以处理即席查询,无需样本存储空间,但每次查询时重复建模采样会产生较高计算开销。离线近似查询则是根据预测的未来查询工作负载提前构建好样本数据,在查询时直接使用已有样本进行近似计算,这种方式优点是查询时样本已准备好,避免访问原始数据;但依赖于对代表性样本的准确预测,通常需要定期更新样本以反映数据变更。

3、然而,随着工作负载的不可预测性增加,现有的近似查询处理方法会施加严重的性能惩罚。具体而言,离线近似查询依赖于可预测的工作负载,不适用于交互式工作负载,当无匹配样本时,需退化到在线采样或精确查询,从而大幅堵塞近似查询速度,影响数据分析效率,同时预测不准也会造成大量无用样本构建和存储浪费,预测准确性与样本规模和构建成本存在难以调节的权衡。在线近似查询可适应不可预测的工作负载,但采样成本高,每次查询时重新建模采样,样本重用率低,采样过程计算开销大,速度提升有限。因此,现有方法在工作不可预测性的条件下无法充分利用采样的好处。

4、因此,亟需一种近似查询处理方法,解决现有离线近似查询、在线近似查询方法在不可预测性的条件下无法兼顾查询精度和查询速度的问题。


技术实现思路

1、本说明书提供了一种基于增量采样的近似查询方法、装置及设备,用以解决现有离线近似查询、在线近似查询方法在不可预测性的条件下无法兼顾查询精度和查询速度的问题。

2、第一方面,本说明书提供了一种基于增量采样的近似查询方法,包括:

3、基于查询请求及谓词自适应查询策略,确定与所述查询请求相对应的谓词条件,并从样本存储库中查找与所述谓词条件相匹配的历史样本;

4、若所述样本存储库中存在部分覆盖所述谓词条件的样本,则部分样本重用,并对没有覆盖到的谓词条件进行延迟增量采样;

5、基于预设的在线-离线样本合并算法,将部分覆盖样本与延迟增量采样后的在线样本进行合并,得到与所述查询请求相匹配的样本集。

6、第二方面,本说明书还提供了一种基于增量采样的近似查询装置,包括:离线查询模块、延迟增量采样模块、离线在线样本合并模块;其中,

7、所述离线查询模块,用于基于查询请求及谓词自适应查询策略,确定与所述查询请求相对应的谓词条件,并从样本存储库中查找与所述谓词条件相匹配的历史样本;

8、所述延迟增量采样模块,用于若所述样本存储库中存在部分覆盖所述谓词条件的样本,则部分样本重用,并对没有覆盖到的谓词条件进行延迟增量采样;

9、所述离线在线样本合并模块,用于基于预设的在线-离线样本合并算法,将部分覆盖样本与延迟增量采样后的在线样本进行合并,得到与所述查询请求相匹配的样本集。

10、第三方面,本说明书实施例还提供了一种网络设备,包括:通信接口、处理器和存储器;

11、所述处理器调用所述存储器中的程序指令,用以执行如下动作:

12、基于查询请求及谓词自适应查询策略,确定与所述查询请求相对应的谓词条件,并从样本存储库中查找与所述谓词条件相匹配的历史样本;

13、若所述样本存储库中存在部分覆盖所述谓词条件的样本,则部分样本重用,并对没有覆盖到的谓词条件进行延迟增量采样;

14、基于预设的在线-离线样本合并算法,将部分覆盖样本与延迟增量采样后的在线样本进行合并,得到与所述查询请求相匹配的样本集。

15、本专利技术有益效果:

16、本说明书提供了一种基于增量采样的近似查询方法、装置及设备,该方法基于查询请求及谓词自适应查询策略,确定与查询请求相对应的谓词条件,并从样本存储库中查找与谓词条件相匹配的历史样本;若样本存储库中存在部分覆盖谓词条件的样本,则部分样本重用,并对没有覆盖到的谓词条件进行延迟增量采样;基于在线-离线样本合并算法,将部分覆盖样本与延迟增量采样后的在线样本进行合并,得到与查询请求相匹配的样本集。该方法引入部分样本重用的概念,放宽匹配要求,允许部分匹配,大幅提高样本利用率。传统在线采样每次从零开始构建样本,该方法采用延迟增量采样方式,仅针对查询不匹配的谓词范围进行增量采样,从而避免重复工作,减少采样计算量。该采用部分重用、明智采样、延迟和最小浪费的思想,使之能够结合在线与离线采样系统的优点。使得近似查询处理可拓展到更广范围的查询,不再严格依赖于工作负载预测、样本利用率高、采样计算量小。

本文档来自技高网...

【技术保护点】

1.一种基于增量采样的近似查询方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述若所述样本存储库中存在部分覆盖所述谓词条件的样本,则部分样本重用,并对没有覆盖到的谓词条件进行延迟增量采样,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于预设的在线-离线样本合并算法,将部分覆盖样本与延迟增量采样后的在线样本进行合并,得到与所述查询请求相匹配的样本集,包括:

4.根据权利要求3所述的方法,其特征在于,所述合并规则,包括:

5.根据权利要求3所述的方法,其特征在于,在所述基于所述部分覆盖样本与所述延迟增量采样后的在线样本,判断二者是否为分层样本之后,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述基于查询请求及谓词自适应查询策

7.根据权利要求1所述的方法,其特征在于,所述谓词自适应查询策略,包括:

8.根据权利要求1所述的方法,其特征在于,在所述基于预设的在线-离线样本合并算法,将部分覆盖样本与延迟增量采样后的在线样本进行合并,得到与所述查询请求相匹配的样本集之后,还包括:

9.一种基于增量采样的近似查询装置,应用于上述权利要求1至8中任一项所述的方法,其特征在于,包括:离线查询模块、延迟增量采样模块、离线在线样本合并模块;其中,

10.一种网络设备,其特征在于,包括:通信接口、处理器和存储器;

...

【技术特征摘要】

1.一种基于增量采样的近似查询方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述若所述样本存储库中存在部分覆盖所述谓词条件的样本,则部分样本重用,并对没有覆盖到的谓词条件进行延迟增量采样,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于预设的在线-离线样本合并算法,将部分覆盖样本与延迟增量采样后的在线样本进行合并,得到与所述查询请求相匹配的样本集,包括:

4.根据权利要求3所述的方法,其特征在于,所述合并规则,包括:

5.根据权利要求3所述的方法,其特征在于,在所述基于所述部分覆盖样本与所述延迟增量采样后的在线样本,判断二者是否为分层样本之后,所...

【专利技术属性】
技术研发人员:苏毅刘雨蒙赵怡婧陈洁张博平
申请(专利权)人:北京遥感设备研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1