【技术实现步骤摘要】
一种数据仓库的数据处理方法及装置
本申请涉及计算机
,尤其涉及一种数据仓库的数据处理方法及装置。
技术介绍
数据仓库(DateWarehouse,DW)是一种数据存储集合,通常存储有大量的数据,来为企业定制决策提供数据支持。在现有技术中,基于数据仓库进行的数据处理中,大部分是每日例行的数据的批处理,其中,某些批处理还需要根据历史数据,进行累计处理。例如,每日对本周内用户浏览页面情况进行统计、每日对本年度用户活跃程度进行统计等等。但是,由于这种对数据的累计处理,一般需要基于全量数据,因此导致计算过程耗费资源较多。例如,对年度用户浏览页面情况进行统计,需要获取年度内所有用户浏览页面的记录。因此本说明书对应提供一种数据仓库的数据处理方法及装置。
技术实现思路
本说明书实施例提供一种数据仓库的数据处理方法及装置,用于解决现有技术中对数据的累计处理,计算过程耗费资源较多的问题。本说明书实施例采用下述技术方案:本说明书提供的一种数据仓库的数据处理方法,包括:针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定该用户的各数据中包含的休眠数据以及活跃数据 ...
【技术保护点】
1.一种数据仓库的数据处理方法,其特征在于,包括:针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定该用户的各数据中包含的休眠数据以及活跃数据;如果接收到数据处理的请求,确定执行所述请求所需数据的类型,作为所需类型,以及确定执行所述请求所需数据对应的用户,作为所需用户;获取所述所需类型的数据中所述所需用户的活跃数据,进行数据处理。
【技术特征摘要】
1.一种数据仓库的数据处理方法,其特征在于,包括:针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定该用户的各数据中包含的休眠数据以及活跃数据;如果接收到数据处理的请求,确定执行所述请求所需数据的类型,作为所需类型,以及确定执行所述请求所需数据对应的用户,作为所需用户;获取所述所需类型的数据中所述所需用户的活跃数据,进行数据处理。2.如权利要求1所述的方法,其特征在于,确定各类型的流失阈值,具体包括:针对每个类型,确定第一时间点至当前时间点,未产生该类型的数据的用户数量,作为第一数值,以及第二时间点至所述第一时间点,未产生该类型的数据的用户数量,作为第二数值,其中所述第二时间点早于所述第一时间点;确定使所述第一数值与所述第二数值之比小于预设阈值的最晚第二时间点;将所述最晚第二时间点至所述第一时间点的时长,作为该类型的流失阈值。3.如权利要求2所述的方法,其特征在于,确定该用户的数据的标签,具体包括:针对每个类型,将在当前时间点之前,该类型的流失阈值对应的时长之内产生的该用户的数据,确定为活跃数据,其余数据确定为休眠数据。4.如权利要求1所述的方法,其特征在于,进行数据处理,具体包括:判断获取到的活跃数据是否包含所述数据处理所需的所有数据;若是,则根据所述获取的活跃数据进行数据处理,输出处理结果;若否,则按照所述所需类型以及所述所需用户,获取历史上根据所需用户的休眠数据进行数据处理得到的历史结果,并根据获取的活跃数据确定当前结果,根据所述历史结果和当前结果进行数据处理,确定处理结果。5.一种数据仓库的数据处理装置,其特征在于,具体包括:标记模块,针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定...
【专利技术属性】
技术研发人员:段晓龙,刘强,魏建钟,党懿,
申请(专利权)人:北京三快在线科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。