The invention discloses a window sampling algorithm for the range mode of window function, which makes full use of the association between data. When querying, a large number of data in the database are randomly sampled, and then the window function value of each row of data is calculated on the sampled data and returned to the user together with the confidence interval. The method optimizes the calculation flow of the window function, reduces the time cost of query response on the premise of ensuring the accuracy of the result, greatly improves the execution efficiency of the window function, and performs well in the application of large data.
【技术实现步骤摘要】
一种针对窗口函数range方式的窗口采样算法
本专利技术属于数据库中的数据分析领域,具体来说,是检索数据库中的数据,以结构化查询语言(SQL)中的窗口函数的方式对这些数据进行数据查询和统计分析。本专利技术利用统计采样的方法对窗口函数的计算过程提出了一种新的优化策略。
技术介绍
随着社会对数据的越来越重视,政府和企业信息化程度的提高,各行各业积累了大量的数据。但是数据量的增长并不一定会为政府和企业带来价值。如何利用数据,从数据中挖掘出有价值的信息是数据分析的重中之中。数据库是政府和公司存储公司的常用工具,其优秀和高效的性能为政府和公司的数据存储和查询提供了有力的支持。然后数据量的增大、数据复杂性的增长,给继续保持数据库的高可用性提出了巨大的挑战。使用传统的数据库尤其是关系型数据库分析大数据不仅仅效率低下,而且能够提供的分析功能也有很多局限。大数据时代的数据分析和传统意义的分析有巨大的区别,不再是基于结构化、关系型的数据,而且往往仅取数据的某个子集来进行分析以及预测。为了支持这类的应用,数据库在其本身的特性之上做出了很多扩展,使其不仅支持传统的数据存储,也添加了对数据 ...
【技术保护点】
1.一种针对窗口函数range方式的窗口采样算法,其特征在于,该方法包括以下步骤:S1:对表中的数据进行随机采样,保证表中的所有数据被等概率地取到;S2:从采样后的表中获取到分区P′,原始的分区使用P进行表示;分区的划分以SQL语句中的partition key为依据;分区P和P′的大小相同,区别在于P′分区内的数据为采样后的数据,小于原始的数据量,从而降低了窗口函数的计算量;S3:对P′中的数据进行排序,排序按照SQL语句中sort key为依据。S4:在分区P′上建立采样窗口;针对range方式确立的窗口;对于采样后的数据,直接建立窗口;而对于缺失的数据r,使用查找算法 ...
【技术特征摘要】
1.一种针对窗口函数range方式的窗口采样算法,其特征在于,该方法包括以下步骤:S1:对表中的数据进行随机采样,保证表中的所有数据被等概率地取到;S2:从采样后的表中获取到分区P′,原始的分区使用P进行表示;分区的划分以SQL语句中的partitionkey为依据;分区P和P′的大小相同,区别在于P′分区内的数据为采样后的数据,小于原始的数据量,从而降低了窗口函数的计算量;S3:对P′中的数据进行排序,排序按照SQL语句中sortkey为依据。S4:在分区P′上建立采样窗口;针对range方式确立的窗口;对于采样后的数据,直接建立窗口;而对于缺失的数据r,使用查找算法找到离其最近的采样数据sr...
【专利技术属性】
技术研发人员:王晓玲,屈稳稳,宋光旋,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。