【技术实现步骤摘要】
本专利技术属于数据库查询优化,尤其涉及一种基于累积分布的学习型基数估计方法和系统。
技术介绍
1、数据库基数估计是查询优化器中至关重要的一环,其核心任务是预测查询操作返回结果集的大小,从而帮助优化器选择高效的查询执行计划。这一过程直接影响数据库系统的性能和资源利用效率。传统的基数估计方法如直方图和采样,通过记录数据的分布特征或对数据进行部分抽样,能够快速提供估计值,但这些方法通常假设数据均匀分布或列之间相互独立,难以捕捉真实数据中的复杂关系,尤其是在面对高维数据或非线性分布时表现出局限性。
2、为克服这些问题,基于机器学习的基数估计方法近年来受到广泛关注,并逐步成为主流研究方向。基于机器学习的技术通过建模数据的复杂分布或从历史查询中提取规律,显著提高了基数估计的准确性。主要的研究方法可以分为查询驱动和数据驱动两大类。查询驱动方法专注于学习查询模式与其对应基数之间的映射关系,常采用树状回归模型、多集合卷积网络等方法。这类技术能够充分利用已有的查询历史信息,为相似的查询生成更准确的基数估计值。数据驱动方法则直接从原始数据中捕获联
...【技术保护点】
1.一种基于累积分布的学习型基数估计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于累积分布的学习型基数估计方法,其特征在于,所述步骤1具体为:
3.根据权利要求2所述的一种基于累积分布的学习型基数估计方法,其特征在于,步骤2中所述表格数据包括N个n维向量x,表示为x(k)表示数据集中的第k个向量,k为向量x的编号,通过给向量x添加均匀噪声z∈[0,b]实现反离散化,反离散化后的向量表示为x′=x+z,进而得到反离散化后的表格数据D′,其中,b表示表格数据中同一属性的任意两个值之间的最小差值。
4.根据权利要求1所
...【技术特征摘要】
1.一种基于累积分布的学习型基数估计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于累积分布的学习型基数估计方法,其特征在于,所述步骤1具体为:
3.根据权利要求2所述的一种基于累积分布的学习型基数估计方法,其特征在于,步骤2中所述表格数据包括n个n维向量x,表示为x(k)表示数据集中的第k个向量,k为向量x的编号,通过给向量x添加均匀噪声z∈[0,b]实现反离散化,反离散化后的向量表示为x′=x+z,进而得到反离散化后的表格数据d′,其中,b表示表格数据中同一属性的任意两个值之间的最小差值。
4.根据权利要求1所述的一种基于累积分布的学习型基数估计方法,其特征在于,步骤3中所述标准化采用z-score标准化。
5.根据权利要求3所述的一种基于累积分布的学习型基数估计方法,其特征在于,步骤4中所述连续多变量累积分布逼近函数为:
6.根据权利要求1所述的一种基于累积...
【专利技术属性】
技术研发人员:肖焰,王中迪,王佳,聂铁铮,申德荣,寇月,
申请(专利权)人:东北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。