一种数据的窗口统计方法、装置及系统制造方法及图纸

技术编号:15746513 阅读:213 留言:0更新日期:2017-07-03 01:59
本申请提供一种数据的窗口统计方法、装置及系统。所述方法可以获取当前时刻业务维度的单位时间级数据,以及所述当前时刻的上一个单位时间业务维度的历史窗口统计结果;从存储的历史单位时间级数据中查询出所述当前时刻的周期窗口负数据,根据所述周期窗口负数据和所述当前时刻业务维度的单位时间级数据计算得到当前时刻的业务维度增量数据;基于所述历史窗口统计结果和所述当前时刻的业务维度增量数据确定所述当前时刻业务维度的窗口统计结果。利用本申请中各个实施例,可以对数据实时窗口统计时大幅降低系统的内存开销,提高系统性能,降低网络开销,提高窗口统计系统的数据处理效率。

Method, device and system for window statistics of data

The present application provides a window statistics method, device and system for data. Unit time data the method can obtain the current business dimension, as well as a business unit of time dimension the current moment of the history window statistical results; check out the current time period according to the unit time from the history window negative level data stored in the unit time, according to the data of the periodic window level the negative data and the current business dimension calculated business dimension incremental data at the moment; business dimension incremental data statistical results of the history window and the current time determines the current time window based on the statistical results of the business dimension. Using various embodiments of the application, the memory of the data can be greatly reduced when the data real-time window is counted, the performance of the system is improved, the network overhead is reduced, and the data processing efficiency of the window statistical system is improved.

【技术实现步骤摘要】
一种数据的窗口统计方法、装置及系统
本申请属于计算机数据处理领域,尤其涉及一种数据的窗口统计方法、装置及系统。
技术介绍
在搜索系统中,常常需要统计过去一段时间内用户搜索最高的TOPN关键词,以捕捉用户的关注焦点。例如实时统计过去24小时内用户搜索次数最高的100个关键词。在搜索统计中常用的搜索关键词统计方式包括采用加法模式和减法模式的窗口统计。所述的窗口统计指在对过去窗口时窗长度时间内段的数据值进行统计,生成当前统计时刻的统计结果。例如当前统计时刻2016-3-1310:20“关键词A”的5分钟窗口统计可以指从2016-3-1310:15到2016-3-1310:20时间段内“关键词A”的总搜索次数。现有技术中常用的窗口统计方法包括加法模式的窗口统计。图1是现有技术中一种采用加法模式进行窗口统计的流程示意图。具体的如图1所示,在实施过程中,可以以分钟为单位时间,系统每分钟将用户所搜索的关键词及关键词的搜索次数以搜索日志的方式存储在数据库中,如HBase(HBase是一个分布式的、面向列的开源数据库)。窗口统计时,在当前这一分钟统计时刻将过去24小时记录的每分钟的关键词及统计次数从H本文档来自技高网...
一种数据的窗口统计方法、装置及系统

【技术保护点】
一种数据的窗口统计方法,其特征在于,所述方法包括:获取当前时刻业务维度的单位时间级数据,以及所述当前时刻的上一个单位时间业务维度的历史窗口统计结果;从存储的历史单位时间级数据中查询出所述当前时刻的周期窗口负数据,根据所述周期窗口负数据和所述当前时刻业务维度的单位时间级数据计算得到当前时刻的业务维度增量数据;基于所述历史窗口统计结果和所述当前时刻的业务维度增量数据确定所述当前时刻业务维度的窗口统计结果。

【技术特征摘要】
1.一种数据的窗口统计方法,其特征在于,所述方法包括:获取当前时刻业务维度的单位时间级数据,以及所述当前时刻的上一个单位时间业务维度的历史窗口统计结果;从存储的历史单位时间级数据中查询出所述当前时刻的周期窗口负数据,根据所述周期窗口负数据和所述当前时刻业务维度的单位时间级数据计算得到当前时刻的业务维度增量数据;基于所述历史窗口统计结果和所述当前时刻的业务维度增量数据确定所述当前时刻业务维度的窗口统计结果。2.如权利要求1所述的一种数据的窗口统计方法,其特征在于,所述当前时刻的周期窗口负数据包括:在所述当前时刻的上一个窗口统计时刻,基于所述上一个窗口统计时刻业务维度的单位时间级数据中业务维度统计值的负数值生成的所述业务维度在当前时刻的负数统计值。3.如权利要求1或2所述的一种数据的窗口统计方法,其特征在于,所述方法还包括:取所述当前时刻业务维度的单位时间级数据中业务维度统计值的负数值,以所述负数值作为所述业务维度在所述当前时刻加上设置的窗口时窗长度后对应的周期时刻的周期窗口负数据。4.如权利要求3所述的一种数据的窗口统计方法,其特征在于,所述基于所述历史窗口统计结果和所述当前时刻的业务维度增量数据确定所述当前时刻业务维度的窗口统计结果包括:获取上一个单位时间的业务维度统计搜索排序结果,将所述上一个单位时间的业务维度统计搜索排序结果与所述当前时刻的业务维度统计增量数据合并运算后进行排序,得到当前时刻的业务维度统计搜索排序结果。5.如权利要求3所述的一种数据的窗口统计方法,其特征在于,所述基于所述历史窗口统计结果和所述当前时刻的业务维度增量数据确定所述当前时刻业务维度的窗口统计结果包括:从存储的历史业务维度窗口结果数据中查询出当前时刻在窗口统计时间段内的业务维度窗口结果数据,将所述业务维度窗口结果数据与所述业务维度增量数据合并运算后更新至所述历史业务维度窗口结果数据中。6.一种数据的窗口统计方法,其特征在于,所述方法包括:获取当前时刻关键词的单位时间级数据,以及所述当前时刻的上一个单位时间关键词的历史窗口统计结果;从存储的历史单位时间级数据中查询出所述当前时刻关键词的周期窗口负数据,根据所述周期窗口负数据和所述当前时刻关键词的单位时间级数据计算得到当前时刻的关键词增量数据;基于所述历史窗口统计结果和所述当前时刻的关键词增量数据确定所述当前时刻关键词的窗口统计结果。7.一种数据的窗口统计装置,其特征在于,所述装置包括:数据获取模块,用于获取当前时刻业务维度的单位时间级数据,以及所述当前时刻的上一个单位时间业务维度的历史窗口统计结果;增量数据计算模块,用于从存储的历史单位时间级数据中查询出所述当前时刻的周期窗口负数据,根据所述周期窗口负数据和所述当前时刻业务维度的单位时间级数据计算得到当前时刻的业务维度增量数据;窗口统计结果模块,用于基于所述历史窗口统计结果和所述当前时刻的业务维度增量数据确定所述当前时刻业务维度的窗口统计结果。...

【专利技术属性】
技术研发人员:王鑫文李奡海
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1