当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于累积分布的学习型基数估计方法和系统技术方案

技术编号:45408031 阅读:15 留言:0更新日期:2025-05-30 18:03
本发明专利技术公开一种基于累积分布的学习型基数估计方法和系统,涉及数据库查询优化技术领域。该方法在保证高精度的同时确保了稳定性。这种稳定性保证了生成的执行计划的一致性,从而有助于商业数据库性能的持续稳定。累积分布函数可以直接提供随机变量在任意区间内的累计概率,这对于评估变量落在特定范围内的概率非常方便。相比之下,使用概率密度函数或概率质量函数确定区间概率需要进行积分或求和,这不仅更复杂,还可能导致更大的误差。与此同时,该方法对高维数据的推理加速显著降低了延迟,带来了显著的性能提升,对于大规模数据处理尤其具有重要价值。

【技术实现步骤摘要】

本专利技术属于数据库查询优化,尤其涉及一种基于累积分布的学习型基数估计方法和系统


技术介绍

1、数据库基数估计是查询优化器中至关重要的一环,其核心任务是预测查询操作返回结果集的大小,从而帮助优化器选择高效的查询执行计划。这一过程直接影响数据库系统的性能和资源利用效率。传统的基数估计方法如直方图和采样,通过记录数据的分布特征或对数据进行部分抽样,能够快速提供估计值,但这些方法通常假设数据均匀分布或列之间相互独立,难以捕捉真实数据中的复杂关系,尤其是在面对高维数据或非线性分布时表现出局限性。

2、为克服这些问题,基于机器学习的基数估计方法近年来受到广泛关注,并逐步成为主流研究方向。基于机器学习的技术通过建模数据的复杂分布或从历史查询中提取规律,显著提高了基数估计的准确性。主要的研究方法可以分为查询驱动和数据驱动两大类。查询驱动方法专注于学习查询模式与其对应基数之间的映射关系,常采用树状回归模型、多集合卷积网络等方法。这类技术能够充分利用已有的查询历史信息,为相似的查询生成更准确的基数估计值。数据驱动方法则直接从原始数据中捕获联合概率分布,通过建模本文档来自技高网...

【技术保护点】

1.一种基于累积分布的学习型基数估计方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于累积分布的学习型基数估计方法,其特征在于,所述步骤1具体为:

3.根据权利要求2所述的一种基于累积分布的学习型基数估计方法,其特征在于,步骤2中所述表格数据包括N个n维向量x,表示为x(k)表示数据集中的第k个向量,k为向量x的编号,通过给向量x添加均匀噪声z∈[0,b]实现反离散化,反离散化后的向量表示为x′=x+z,进而得到反离散化后的表格数据D′,其中,b表示表格数据中同一属性的任意两个值之间的最小差值。

4.根据权利要求1所述的一种基于累积分布...

【技术特征摘要】

1.一种基于累积分布的学习型基数估计方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于累积分布的学习型基数估计方法,其特征在于,所述步骤1具体为:

3.根据权利要求2所述的一种基于累积分布的学习型基数估计方法,其特征在于,步骤2中所述表格数据包括n个n维向量x,表示为x(k)表示数据集中的第k个向量,k为向量x的编号,通过给向量x添加均匀噪声z∈[0,b]实现反离散化,反离散化后的向量表示为x′=x+z,进而得到反离散化后的表格数据d′,其中,b表示表格数据中同一属性的任意两个值之间的最小差值。

4.根据权利要求1所述的一种基于累积分布的学习型基数估计方法,其特征在于,步骤3中所述标准化采用z-score标准化。

5.根据权利要求3所述的一种基于累积分布的学习型基数估计方法,其特征在于,步骤4中所述连续多变量累积分布逼近函数为:

6.根据权利要求1所述的一种基于累积...

【专利技术属性】
技术研发人员:肖焰王中迪王佳聂铁铮申德荣寇月
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1