一种数据仓库的数据处理方法及装置制造方法及图纸

技术编号:22055153 阅读:27 留言:0更新日期:2019-09-07 15:13
本说明书公开了一种数据仓库的数据处理方法及装置,首先预先针对每个用户,根据预先确定的各种数据的类型的流失阈值,确定该用户的各数据中的休眠数据以及活跃数据。之后,如果接收到了数据处理请求,则根据请求确定所需数据的类型,作为所需类型,以及所需数据对应的用户,作为所需用户,然后获取所需类型的数据中所需用户的活跃数据,进行数据处理。

A Data Processing Method and Device for Data Warehouse

【技术实现步骤摘要】
一种数据仓库的数据处理方法及装置
本申请涉及计算机
,尤其涉及一种数据仓库的数据处理方法及装置。
技术介绍
数据仓库(DateWarehouse,DW)是一种数据存储集合,通常存储有大量的数据,来为企业定制决策提供数据支持。在现有技术中,基于数据仓库进行的数据处理中,大部分是每日例行的数据的批处理,其中,某些批处理还需要根据历史数据,进行累计处理。例如,每日对本周内用户浏览页面情况进行统计、每日对本年度用户活跃程度进行统计等等。但是,由于这种对数据的累计处理,一般需要基于全量数据,因此导致计算过程耗费资源较多。例如,对年度用户浏览页面情况进行统计,需要获取年度内所有用户浏览页面的记录。因此本说明书对应提供一种数据仓库的数据处理方法及装置。
技术实现思路
本说明书实施例提供一种数据仓库的数据处理方法及装置,用于解决现有技术中对数据的累计处理,计算过程耗费资源较多的问题。本说明书实施例采用下述技术方案:本说明书提供的一种数据仓库的数据处理方法,包括:针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定该用户的各数据中包含的休眠数据以及活跃数据;如果接收到数据处理的请求,确定执行所述请求所需数据的类型,作为所需类型,以及确定执行所述请求所需数据对应的用户,作为所需用户;获取所述所需类型的数据中所述所需用户的活跃数据,进行数据处理。可选地,确定各类型的流失阈值,具体包括:针对每个类型,确定第一时间点至当前时间点,未产生该类型的数据的用户数量,作为第一数值,以及第二时间点至所述第一时间点,未产生该类型的数据的用户数量,作为第二数值,其中所述第二时间点早于所述第一时间点;确定使所述第一数值与所述第二数值之比小于预设阈值的最晚第二时间点;将所述最晚第二时间点至所述第一时间点的时长,作为该类型的流失阈值。可选地,确定该用户的数据的标签,具体包括:针对每个类型,将在当前时间点之前,该类型的流失阈值对应的时长之内产生的该用户的数据,确定为活跃数据,其余数据确定为休眠数据。可选地,进行数据处理,具体包括:判断获取到的活跃数据是否包含所述数据处理所需的所有数据;若是,则根据所述获取的活跃数据进行数据处理,输出处理结果;若否,则按照所述所需类型以及所述所需用户,获取历史上根据所需用户的休眠数据进行数据处理得到的历史结果,并根据获取的活跃数据确定当前结果,根据所述历史结果和当前结果进行数据处理,确定处理结果。本说明书提供一种数据仓库的数据处理装置,包括:标记模块,针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定该用户的各数据中包含的休眠数据以及活跃数据;确定模块,如果接收到数据处理的请求,确定执行所述请求所需数据的类型,作为所需类型,以及确定执行所述请求所需数据对应的用户,作为所需用户;处理模块,获取所述所需类型的数据中所述所需用户的活跃数据,进行数据处理。所述标记模块,针对每个类型,确定第一时间点至当前时间点,未产生该类型的数据的用户数量,作为第一数值,以及第二时间点至所述第一时间点,未产生该类型的数据的用户数量,作为第二数值,其中所述第二时间点早于所述第一时间点,确定使所述第一数值与所述第二数值之比小于预设阈值的最晚第二时间点,将所述最晚第二时间点至所述第一时间点的时长,作为该类型的流失阈值。可选地,所述标记模块,针对每个类型,将在当前时间点之前,该类型的流失阈值对应的时长之内产生的该用户的数据,确定为活跃数据,其余数据确定为休眠数据。可选地,所述处理模块,判断获取到的活跃数据是否包含所述数据处理所需的所有数据,若是,则根据所述获取的活跃数据进行数据处理,输出处理结果,若否,则按照确定出的所需类型以及所需用户,获取历史上根据所需用户的休眠数据进行数据处理得到的历史结果,并根据获取的活跃数据确定当前结果,根据所述历史结果和当前结果进行数据处理,确定处理结果。本说明书提供的一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据仓库的数据处理方法。本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述数据仓库的数据处理方法。本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:首先预先针对每个用户,根据预先确定的各种数据的类型的流失阈值,确定该用户的各数据中的休眠数据以及活跃数据。也就是,根据对不同类型的数据预设的流失阈值,确定每个用户的数据中的休眠数据以及活跃数据。之后,如果接收到了数据处理请求,则根据请求确定所需数据的类型,作为所需类型,以及所需数据对应的用户,作为所需用户,然后获取所需类型的数据中所需用户的活跃数据,进行数据处理。也就是,跟数据处理请求,确定需要获取的数据,之后根据数据的类型以及来源(即,是哪个用户的数据),确定所需数据中的活跃数据,进行数据处理。由于所需数据中的休眠数据,在历史上也曾经是活跃数据,因此存在根据休眠数据进行数据处理后的结果。因此,当前再进行数据处理时,可以只基于活跃数据进行数据处理,减少了计算量,减轻了资源浪费的问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本说明书提供的一种数据仓库的数据处理过程;图2为本说明书实施例提供的一种数据仓库的数据处理装置的结构示意图;图3为本说明书实施例提供的对应于图1的电子设备示意图。具体实施方式为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。图1为本说明书实施例提供的一种数据库的数据处理过程,具体可包括以下步骤:S102:针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定该用户的各数据中包含的休眠数据以及活跃数据。在本说明书中,该数据处理具体为对数据的累计处理,并且具体是每日例行。由于每日例行的数据处理,通常依赖于存储于数据仓库中的数据。而数据仓库在存储数据时,需要按照预设的数据格式,对数据进行预处理之后再存储。对于没有实际产生的数据,数据仓库会自动补充空值(null)数据,以保证每日存储的数据在格式上相同。例如,每日用户登录时长的数据,若某个用户当日没有登录,则没有产生登录时长数据,数据仓库需要补充该用户的登录时长的数据,具体数值为null。具体的,该数据处理过程可由数据仓库的管理系统或者指定的服务器执行,本说明书对此不做限定。为方便描述,后续以服务器执行数据处理过程为例进行说明。首先,服务器可针对每个用户,根据预设的类型,确定该用户的各数据的类型。其中,数据的类型可以根据业务场景的不同进行设置,例如,支付业务的场景、理财业务的场景、搜索业务的场景等等。不同的业务场景对应于服务提供方向用户提供的不同的服务本文档来自技高网...

【技术保护点】
1.一种数据仓库的数据处理方法,其特征在于,包括:针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定该用户的各数据中包含的休眠数据以及活跃数据;如果接收到数据处理的请求,确定执行所述请求所需数据的类型,作为所需类型,以及确定执行所述请求所需数据对应的用户,作为所需用户;获取所述所需类型的数据中所述所需用户的活跃数据,进行数据处理。

【技术特征摘要】
1.一种数据仓库的数据处理方法,其特征在于,包括:针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定该用户的各数据中包含的休眠数据以及活跃数据;如果接收到数据处理的请求,确定执行所述请求所需数据的类型,作为所需类型,以及确定执行所述请求所需数据对应的用户,作为所需用户;获取所述所需类型的数据中所述所需用户的活跃数据,进行数据处理。2.如权利要求1所述的方法,其特征在于,确定各类型的流失阈值,具体包括:针对每个类型,确定第一时间点至当前时间点,未产生该类型的数据的用户数量,作为第一数值,以及第二时间点至所述第一时间点,未产生该类型的数据的用户数量,作为第二数值,其中所述第二时间点早于所述第一时间点;确定使所述第一数值与所述第二数值之比小于预设阈值的最晚第二时间点;将所述最晚第二时间点至所述第一时间点的时长,作为该类型的流失阈值。3.如权利要求2所述的方法,其特征在于,确定该用户的数据的标签,具体包括:针对每个类型,将在当前时间点之前,该类型的流失阈值对应的时长之内产生的该用户的数据,确定为活跃数据,其余数据确定为休眠数据。4.如权利要求1所述的方法,其特征在于,进行数据处理,具体包括:判断获取到的活跃数据是否包含所述数据处理所需的所有数据;若是,则根据所述获取的活跃数据进行数据处理,输出处理结果;若否,则按照所述所需类型以及所述所需用户,获取历史上根据所需用户的休眠数据进行数据处理得到的历史结果,并根据获取的活跃数据确定当前结果,根据所述历史结果和当前结果进行数据处理,确定处理结果。5.一种数据仓库的数据处理装置,其特征在于,具体包括:标记模块,针对每个用户,根据该用户的各数据的类型,以及预先确定的各类型的流失阈值,确定...

【专利技术属性】
技术研发人员:段晓龙刘强魏建钟党懿
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1