【技术实现步骤摘要】
一种频率直方图合并方法、装置和数据处理系统
[0001]本专利技术涉及数据处理
,尤其涉及一种频率直方图合并方法、装置和数据处理系统。
技术介绍
[0002]数据库是为了适应数据处理的需要而发展起来的一种数据处理系统。利用结构化查询语言(structured query language,SQL)语句查询数据库中的数据时,数据库需要根据SQL语句生成查询计划。查询计划是依赖于过滤谓词的选择率大小来生成。选择率的大小通过数据库的统计信息估计得到。数据库的统计信息是数据库在空闲或计划时刻收集的distinct值、最常见值(most common value,MCV)、频率直方图等参数。其中,频率直方图主要使用在范围查询的选择率估算中。
[0003]通常情况下,选择率的计算并不需要精准,且计算所耗费的时间尽量短。因此,数据库不会精确地记录下某一列上数据分布的频率直方图,而是采用一些算法获取相对粗略的频率直方图。为了简化频率直方图,可以将频率直方图中相邻几个柱子合并在一起,得到粗略的频率直方图。但是,合并频率直方图的柱子过程中,将几个高度差距比较大的柱子合并在一起,会造成数据库的统计信息大量丢失。
技术实现思路
[0004]为了解决上述的问题,本申请的实施例中提供了一种频率直方图合并方法、装置和数据处理系统,数据处理系统在合并频率直方图的各个柱子过程中,利用滑动窗口在频率直方图上滑动。数据处理系统利用交叉熵的概念,确定滑动窗口内的各个柱子是否合并在一起。当滑动窗口内的各个柱子的高度差异比较大时, ...
【技术保护点】
【技术特征摘要】
1.一种频率直方图合并方法,其特征在于,包括:使得滑动窗口在频率直方图上左右滑动,所述频率直方图包括多个柱子;获取所述滑动窗口内的各个柱子的高度值,根据所述滑动窗口内的各个柱子的高度值,确定所述滑动窗口内的各个柱子的高度的分布均匀率;在所述滑动窗口内的各个柱子的高度的分布均匀率不小于设定阈值的情况下,将所述滑动窗口内的各个柱子合并成一个桶。2.根据权利要求1所述的方法,其特征在于,所述根据所述滑动窗口内的各个柱子的高度值,确定所述滑动窗口内的各个柱子的高度的分布均匀率,包括:根据所述滑动窗口内的各个柱子的总高度值,确定所述滑动窗口内的各个柱子的均匀分布的交叉熵;根据所述滑动窗口内的各个柱子的均匀分布的交叉熵,确定所述滑动窗口内的各个柱子的高度的分布均匀率。3.根据权利要求2所述的方法,其特征在于,所述滑动窗口内的各个柱子的均匀分布的交叉熵的计算方式为:其中,i表示各个柱子在频率直方图的顺序,N表示频率直方图的柱子的总数,n
i
表示第i个柱子的高度,S
N
表示所述滑动窗口内的各个柱子的总高度。4.根据权利要求2或3所述的方法,其特征在于,所述滑动窗口内的各个柱子的高度的分布均匀率的计算方式为:其中,N表示频率直方图的柱子的总数,C
N
表示所述滑动窗口内的各个柱子的交叉熵。5.根据权利要求1
‑
4任意一项所述的方法,其特征在于,所述在所述滑动窗口内的各个柱子的高度的分布均匀率不小于设定阈值的情况下,将所述滑动窗口内的各个柱子合并成一个桶,包括:在所述滑动窗口内的各个柱子的高度的分布均匀率不小于设定阈值的情况下,在所述滑动窗口内增加一个柱子;获取增加柱子的滑动窗口内的柱子的高度值,并确定所述增加柱子的滑动窗口内的各个柱子的高度的分布均匀率;在所述增加柱子的滑动窗口内的各个柱子的高度的分布均匀率小于设定阈值的情况下,将增加柱子之前的所述滑动窗口内的各个柱子合并成一个桶。6.根据权利要求1
‑
5任意一项所述的方法,其特征在于,所述滑动窗口还包括左端侧和右端侧,所述左端侧为所述滑动窗口靠近所述频率直方图坐标原点的一侧,所述右端侧为所述滑动窗口远离所述频率直方图坐标原点的一侧;所述方法还包括:在所述滑动窗口内的各个柱子的高度的分布均匀率小于设定阈值的情况下,合并所述滑动窗口内除靠近所述右端侧的一个柱子以外其它柱子的高度,得到一个桶。7.根据权利要求6所述的方法,其特征在于,还包括:
移动所述滑动窗口的所述左端侧至所述滑动窗口内靠近所述右端侧的一个柱子。8.根据权利要求1
‑
7任意一项所述的方法,其特征在于,所述根据所述滑动窗口内的各个柱子的高度值,确定所述滑动窗口内的各个柱子的高度的分布均匀率之前,还包括:在所述滑动窗口内的柱子数量为1的情况下,确定所述滑动窗口内的所述柱子的高度的分布均匀率为零。9.根据权利要求1<...
【专利技术属性】
技术研发人员:张炙炀,
申请(专利权)人:超聚变数字技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。