实时数据处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:24683280 阅读:18 留言:0更新日期:2020-06-27 07:56
本申请提供一种实时数据处理方法、装置、电子设备及可读存储介质,涉及数据处理技术领域。该方法包括:获取实时数据;通过实时消费任务从所述实时数据中确定与用户数据统计需求匹配的目标数据,并通过所述实时消费任务将所述目标数据消费到数据仓库中,其中,所述实时消费任务通过从预先生成的任务配置文件获取所述用户数据统计需求,所述任务配置文件包括表征所述用户数据统计需求的相关参数。该方案中,由于实时消费任务是直接从任务配置文件中获取用户数据统计需求的,使得在用户数据统计需求改变的情况下,只需改变任务配置文件即可,而无需每次均生成新的实时消费任务,可有效减少消费数据的时间,确保了数据的时效性。

Real time data processing method, device, electronic equipment and readable storage medium

【技术实现步骤摘要】
实时数据处理方法、装置、电子设备及可读存储介质
本申请涉及数据处理
,具体而言,涉及一种实时数据处理方法、装置、电子设备及可读存储介质。
技术介绍
随着科技的发展,大数据技术的广泛应用使其成为引领众多行业技术进步、促进效益增长的关键支撑技术。根据数据处理的时效性,大数据处理系统可分为批式大数据处理和流式大数据处理两类。其中,流式大数据又被称为实时大数据。目前应用较为广泛的流式大数据处理系统有Storm、Flink等,将实时数据通过流处理,逐条加载至高性能内存数据库中进行查询。而为了满足用户对数据的不同需求,以将不同的数据实时消费到数据仓库中,需要开发人员针对不同用户需求开发一个实时任务来将对应的数据消费到数据仓库中,但是在数据需求较大的情况下,需要开发人员开发很多实时任务,而开发这些实时任务需要较多时间,从而可能使得不能及时将数据消费到数据仓库中,即无法确保数据的时效性。
技术实现思路
本申请实施例的目的在于提供一种实时数据处理方法、装置、电子设备及可读存储介质,用以改善现有技术中针对不同的用户需求需要开发不同的消费任务来消费数据到数据仓库中,导致数据消费不及时,无法确保数据的时效性的问题。第一方面,本申请实施例提供了一种实时数据处理方法,所述方法包括:获取实时数据;通过实时消费任务从所述实时数据中确定与用户数据统计需求匹配的目标数据,并通过所述实时消费任务将所述目标数据消费到数据仓库中,其中,所述实时消费任务通过从预先生成的任务配置文件获取所述用户数据统计需求,所述任务配置文件包括表征所述用户数据统计需求的相关参数。在上述实现过程中,通过实时消费任务从实时数据中确定与用户数据统计需求匹配的目标数据,并将目标数据消费到数据仓库中,由于实时消费任务是直接从任务配置文件中获取用户数据统计需求的,使得在用户数据统计需求改变的情况下,只需改变任务配置文件即可,而无需每次均生成新的实时消费任务,可有效减少消费数据的时间,确保了数据的时效性。可选地,所述获取实时数据之前,还包括:获取表征所述用户数据统计需求的相关参数;获取预先生成的任务配置模板;基于所述相关参数与所述任务配置模板生成所述任务配置文件。在上述实现过程中,通过基于相关参数以及任务配置模块来生成任务配置文件,从而使得在用户数据统计需求改变的情况下,只需生成新的任务配置文件即可,而无需重新开发实时消费任务,进而可减少资源消耗。可选地,所述通过实时消费任务将所述实时数据中与用户数据统计需求匹配的目标数据消费到数据仓库中,包括:通过实时消费任务将所述目标数据消费到所述数据仓库的临时存储层;按照预设时间间隔对所述临时存储层的目标数据进行数据清洗,获得清洗后的数据,并将所述清洗后的数据存储到所述数据仓库的明细层;响应用户数据统计需求,对所述明细层存储的数据基于至少一个预设维度进行汇总处理,获得汇总后的数据,并将所述汇总后的数据存储在所述数据仓库的汇总层。在上述实现过程中,将不同的数据存储在数据仓库的不同层,从而可便于对数据分层处理。可选地,所述按照预设时间间隔对所述临时存储层的目标数据进行数据清洗,获得清洗后的数据,包括:通过预先生成的离线任务,按照预设时间间隔对所述临时存储层的目标数据进行数据清洗,获得清洗后的数据。在上述实现过程中,在数据量较少的情况下,通过离线任务对数据进行清洗可减少资源消耗。可选地,所述用户数据统计需求包括独立访客UV的统计需求,所述响应用户的数据统计需求,对所述明细层存储的数据基于至少一个预设维度进行汇总处理,获得汇总后的数据,包括:响应针对所述UV的统计需求,对所述明细层存储的数据基于UV进行汇总处理,获得汇总后的UV数据。在上述实现过程中,通过宽表存储UV数据,可便于对对UV数据的查询。可选地,所述汇总后的UV数据采用宽表进行存储,所述方法还包括:按照所述预设时间间隔更新所述宽表中的相应指标,所述相应指标为用于统计目标对象的所述UV时的相应参数。在上述实现过程中,按照预设时间间隔对数据进行更新,可及时将预设时间间隔内的增量数据进行更新,以便于及时对数据进行汇总统计。可选地,所述响应用户的数据统计需求,对所述明细层存储的数据基于至少一个预设维度进行汇总处理,获得汇总后的数据,包括:通过Spark分布式查询引擎响应用户的数据统计需求,对所述明细层存储的数据基于至少一个预设维度进行汇总处理,获得汇总后的数据。在上述实现过程中,由于Spark分布式查询引擎是专为大规模数据处理而设计的快速通用的计算引擎,通过Spark分布式查询引擎对数据进行汇总处理,可有效提高数据处理效率。第二方面,本申请实施例提供了一种实时数据处理装置,所述装置包括:数据获取模块,用于获取实时数据;数据消费模块,用于通过实时消费任务从所述实时数据中确定与用户数据统计需求匹配的目标数据,并通过所述实时消费任务将所述目标数据消费到数据仓库中,其中,所述实时消费任务通过从预先生成的任务配置文件获取所述用户数据统计需求,所述任务配置文件包括表征所述用户数据统计需求的相关参数。可选地,所述装置还包括:任务配置文件生成模块,用于获取表征所述用户数据统计需求的相关参数;获取预先生成的任务配置模板;基于所述相关参数与所述任务配置模板生成所述任务配置文件。可选地,所述数据消费模块,用于:通过实时消费任务将所述目标数据消费到所述数据仓库的临时存储层;按照预设时间间隔对所述临时存储层的目标数据进行数据清洗,获得清洗后的数据,并将所述清洗后的数据存储到所述数据仓库的明细层;响应用户数据统计需求,对所述明细层存储的数据基于至少一个预设维度进行汇总处理,获得汇总后的数据,并将所述汇总后的数据存储在所述数据仓库的汇总层。可选地,所述数据消费模块,用于通过预先生成的离线任务,按照预设时间间隔对所述临时存储层的目标数据进行数据清洗,获得清洗后的数据。可选地,所述用户数据统计需求包括独立访客UV的统计需求,所述数据消费模块,用于响应针对所述UV的统计需求,对所述明细层存储的数据基于UV进行汇总处理,获得汇总后的UV数据。可选地,所述汇总后的UV数据采用宽表进行存储,所述装置还包括:数据更新模块,用于按照所述预设时间间隔更新所述宽表中的相应指标,所述相应指标为用于统计目标对象的所述UV时的相应参数。可选地,所述数据消费模块,用于通过Spark分布式查询引擎响应用户的数据统计需求,对所述明细层存储的数据基于至少一个预设维度进行汇总处理,获得汇总后的数据。第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算本文档来自技高网...

【技术保护点】
1.一种实时数据处理方法,其特征在于,所述方法包括:/n获取实时数据;/n通过实时消费任务从所述实时数据中确定与用户数据统计需求匹配的目标数据,并通过所述实时消费任务将所述目标数据消费到数据仓库中,其中,所述实时消费任务通过从预先生成的任务配置文件获取所述用户数据统计需求,所述任务配置文件包括表征所述用户数据统计需求的相关参数。/n

【技术特征摘要】
1.一种实时数据处理方法,其特征在于,所述方法包括:
获取实时数据;
通过实时消费任务从所述实时数据中确定与用户数据统计需求匹配的目标数据,并通过所述实时消费任务将所述目标数据消费到数据仓库中,其中,所述实时消费任务通过从预先生成的任务配置文件获取所述用户数据统计需求,所述任务配置文件包括表征所述用户数据统计需求的相关参数。


2.根据权利要求1所述的方法,其特征在于,所述获取实时数据之前,还包括:
获取表征所述用户数据统计需求的相关参数;
获取预先生成的任务配置模板;
基于所述相关参数与所述任务配置模板生成所述任务配置文件。


3.根据权利要求1所述的方法,其特征在于,所述通过实时消费任务将所述实时数据中与用户数据统计需求匹配的目标数据消费到数据仓库中,包括:
通过实时消费任务将所述目标数据消费到所述数据仓库的临时存储层;
按照预设时间间隔对所述临时存储层的目标数据进行数据清洗,获得清洗后的数据,并将所述清洗后的数据存储到所述数据仓库的明细层;
响应用户数据统计需求,对所述明细层存储的数据基于至少一个预设维度进行汇总处理,获得汇总后的数据,并将所述汇总后的数据存储在所述数据仓库的汇总层。


4.根据权利要求3所述的方法,其特征在于,所述按照预设时间间隔对所述临时存储层的目标数据进行数据清洗,获得清洗后的数据,包括:
通过预先生成的离线任务,按照预设时间间隔对所述临时存储层的目标数据进行数据清洗,获得清洗后的数据。


5.根据权利要求3所述的方法,其特征在于,所述用户数据统计需求包括独立访客UV的统计需求,所述响应...

【专利技术属性】
技术研发人员:李大学
申请(专利权)人:天津满运软件科技有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1