本公开关于一种数据分析方法、装置、设备及存储介质,该方法包括:实时获取原始数据,并对原始数据进行预处理,将经过预处理的原始数据作为待分析数据;在接收数据分析请求后,获取数据分析请求对应的依赖数据,其中,依赖数据包括离线数据及待分析数据;对依赖数据进行分析,得到数据分析结果。这样,在接收数据分析请求后,获取到的依赖数据中包括离线数据及实时获取的待分析数据,不论数据的到达速度快慢,都可以及时用于进行数据分析,从而缩短数据分析任务的执行时间,提高数据分析效率。提高数据分析效率。提高数据分析效率。
【技术实现步骤摘要】
一种数据分析方法、装置、设备及存储介质
[0001]本申请涉及大数据领域,特别是涉及一种数据分析方法、装置、设备及存储介质。
技术介绍
[0002]一些场景中,应用软件需要通过不同的平台向用户进行信息推送,以期通过信息的推送和展示,获得更多的新用户。在这种场景下,为了完善和优化后续的信息推送,通常需要通过技术手段对新用户的指纹数据进行分析,判断新用户的激活到底是哪个平台的信息推送带来的,这种数据分析过程可以称之为数据归因。
[0003]现有技术中,数据归因采用流批一体架构,通过sql(Structured Query Language,结构化查询语言)语句执行对多份数据的join(数据关联)、map(数据映射)、reduce(数据归约)等操作,但是,这些操作需要实时、离线进行,而这些数据有的到达得快,有的到达得慢,任务执行时间很难预测,不可估量。
技术实现思路
[0004]为了解决相关技术中存在的任务执行时间很难预测,不可估量的问题,本公开提供了一种数据分析方法、装置、设备及存储介质,本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供了一种数据分析方法,包括:
[0006]实时获取原始数据,并对所述原始数据进行预处理,将经过预处理的原始数据作为待分析数据;
[0007]在接收数据分析请求后,获取所述数据分析请求对应的依赖数据,其中,所述依赖数据包括离线数据及所述待分析数据;
[0008]对所述依赖数据进行分析,得到数据分析结果。
[0009]可选的,在所述获取所述数据分析请求对应的依赖数据之后,所述方法还包括:
[0010]获取所述依赖数据的标记信息,所述标记信息用于指示所述依赖数据的使用状态;
[0011]根据所述标记信息,筛选未被使用过的所述依赖数据,得到目标数据;
[0012]所述对所述依赖数据进行分析,得到数据分析结果,包括:
[0013]对所述目标数据进行分析,得到数据分析结果。
[0014]可选的,所述获取所述依赖数据的标记信息,包括:
[0015]从第一预设存储空间获取所述依赖数据的标记信息,所述第一预设存储空间为本地存储空间之外的存储空间。
[0016]可选的,所述对所述原始数据进行预处理,将经过预处理的原始数据作为待分析数据之后,还包括:
[0017]将所述待分析数据分桶存储至第二预设存储空间的不同存储节点中,所述第二预设存储空间用于存储离线数据及所述待分析数据;
[0018]所述获取所述数据分析请求对应的依赖数据,包括:
[0019]从所述第二预设存储空间的不同存储节点中获取所述数据分析请求对应的依赖数据。
[0020]可选的,在所述将所述待分析数据分桶存储至第二预设存储空间的不同存储节点中之后,所述方法还包括:
[0021]预先将下载量满足预设条件的离线数据及待分析数据作为候选数据,将所述候选数据存储在本地存储空间内;
[0022]在所述从所述第二预设存储空间的不同存储节点中获取所述数据分析请求对应的依赖数据之前,所述方法还包括:
[0023]从所述本地存储空间内存储的候选数据中,获取所述数据分析请求对应的依赖数据;
[0024]在未获取到所述数据分析请求对应的依赖数据的情况下,执行所述从所述第二预设存储空间的不同存储节点中获取所述数据分析请求对应的依赖数据的步骤。
[0025]根据本公开实施例的第二方面,还提供了一种数据分析装置,所述装置包括:
[0026]处理单元,被配置为执行实时获取原始数据,并对所述原始数据进行预处理,将经过预处理的原始数据作为待分析数据;
[0027]获取单元,被配置为执行在接收数据分析请求后,获取所述数据分析请求对应的依赖数据,其中,所述依赖数据包括离线数据及所述待分析数据;
[0028]分析单元,被配置为执行对所述依赖数据进行分析,得到数据分析结果。
[0029]可选的,获取单元,被配置为执行:
[0030]获取所述依赖数据的标记信息,所述标记信息用于指示所述依赖数据的使用状态;
[0031]根据所述标记信息,筛选未被使用过的所述依赖数据,得到目标数据;
[0032]所述分析单元,被配置为执行:
[0033]对所述目标数据进行分析,得到数据分析结果。
[0034]可选的,所述获取单元,被配置为执行:
[0035]从第一预设存储空间获取所述依赖数据的标记信息,所述第一预设存储空间为本地存储空间之外的存储空间。
[0036]可选的,所述处理单元,被配置为执行:
[0037]将所述待分析数据分桶存储至第二预设存储空间的不同存储节点中,所述第二预设存储空间用于存储离线数据及所述待分析数据;
[0038]所述获取单元,被配置为执行:
[0039]从所述第二预设存储空间的不同存储节点中获取所述数据分析请求对应的依赖数据。
[0040]可选的,所述处理单元,被配置为执行:
[0041]预先将下载量满足预设条件的离线数据及待分析数据作为候选数据,将所述候选数据存储在本地存储空间内;
[0042]所述获取单元,被配置为执行:
[0043]从所述本地存储空间内存储的候选数据中,获取所述数据分析请求对应的依赖数据;在未获取到所述数据分析请求对应的依赖数据的情况下,执行所述从所述第二预设存
储空间的不同存储节点中获取所述数据分析请求对应的依赖数据的步骤。
[0044]根据本公开实施例的第三方面,还提供了一种电子设备,包括:
[0045]处理器;
[0046]用于存储所述处理器可执行指令的存储器;
[0047]其中,所述处理器被配置为执行所述指令,以实现第一方面所述的方法。
[0048]根据本公开实施例的第四方面,还提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面所述的方法。
[0049]根据本公开实施例的第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现第一方面所述的方法。
[0050]本公开实施例提供的技术方案中,
[0051]实时获取原始数据,并对原始数据进行预处理,将经过预处理的原始数据作为待分析数据;在接收数据分析请求后,获取数据分析请求对应的依赖数据,其中,依赖数据包括离线数据及待分析数据;对依赖数据进行分析,得到数据分析结果。
[0052]这样,在接收数据分析请求后,获取到的依赖数据中包括离线数据及实时获取的待分析数据,不论数据的到达速度快慢,都可以及时用于进行数据分析,从而缩短数据分析任务的执行时间,提高数据分析效率。
附图说明
[0053]图1是根据一示例性实施例示出的一种数据分析方法的流程图;
[0054]图2是根据一示例性实施例示出的另一种数据分析方本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据分析方法,其特征在于,所述方法包括:实时获取原始数据,并对所述原始数据进行预处理,将经过预处理的原始数据作为待分析数据;在接收数据分析请求后,获取所述数据分析请求对应的依赖数据,其中,所述依赖数据包括离线数据及所述待分析数据;对所述依赖数据进行分析,得到数据分析结果。2.根据权利要求1所述的方法,其特征在于,在所述获取所述数据分析请求对应的依赖数据之后,所述方法还包括:获取所述依赖数据的标记信息,所述标记信息用于指示所述依赖数据的使用状态;根据所述标记信息,筛选未被使用过的所述依赖数据,得到目标数据;所述对所述依赖数据进行分析,得到数据分析结果,包括:对所述目标数据进行分析,得到数据分析结果。3.根据权利要求2所述的方法,其特征在于,所述获取所述依赖数据的标记信息,包括:从第一预设存储空间获取所述依赖数据的标记信息,所述第一预设存储空间为本地存储空间之外的存储空间。4.根据权利要求1所述的方法,其特征在于,所述对所述原始数据进行预处理,将经过预处理的原始数据作为待分析数据之后,还包括:将所述待分析数据分桶存储至第二预设存储空间的不同存储节点中,所述第二预设存储空间用于存储离线数据及所述待分析数据;所述获取所述数据分析请求对应的依赖数据,包括:从所述第二预设存储空间的不同存储节点中获取所述数据分析请求对应的依赖数据。5.根据权利要求4所述的方法,其特征在于,在所述将所述待分析数据分桶存储至第二预设存储空间的不同存储节点中之后,所述方法还包括:预先将下载量满足预设条件的离线数据及待分析数据作为候选数据,将所述候选数据存储在本地存储空间内;在所述从所述第二预设存...
【专利技术属性】
技术研发人员:张旭华,叶邦宇,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。