【技术实现步骤摘要】
本公开涉及云计算的,具体而言,涉及一种数据延迟处理方法、装置、电子设备、存储介质及产品。
技术介绍
1、随着数据规模越来越庞大,为了满足数据更加高效、精准、全面地展现和利用,离线数仓逐渐被广泛应用。离线数仓的主要功能是周期性的将实时产生的数据进行清洗、计算与落地,为数据的进一步分析提供数据支撑,辅助业务决策。
2、相关技术中,数据采集工具实时将采集到的数据传输至hfds集群,然后,通过定时调度计算的方式通过离线数仓对hfds集群中的数据进行处理。从数据产生到传输到hdfs集群的过程中,会经历复杂的网络io和运算过程,从而可能会导致数据延迟到达hdfs集群。由于离线数仓的计算过程均为定时调度计算,延迟到达的文件可能会错过计算周期导致无法参与计算过程,进一步导致数据缺失,影响应用层数据准确性与完整性。
技术实现思路
1、本公开实施例至少提供一种数据延迟处理方法、装置、电子设备、存储介质及产品。
2、第一方面,本公开实施例提供了一种数据延迟处理方法,包括:
3
...【技术保护点】
1.一种数据延迟处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定待处理的日志数据的事件发生时间,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述事件发生时间,在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于预设规则和所述临时存储层中文件目录,识别延迟到达日志,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述临时存储层中文件目录所对应日志数据的数据量,识别所述延迟到达日志,包括:
6.
...【技术特征摘要】
1.一种数据延迟处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定待处理的日志数据的事件发生时间,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述事件发生时间,在集群的临时存储层中存储目标时间段内产生的日志数据的文件目录,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于预设规则和所述临时存储层中文件目录,识别延迟到达日志,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述临时存储层中文件目录所对应日志数据的数据量,识别所述延迟到达日志,包括:
6.根据权利要求4所述的方法,其特征在于,基于所述临时存储层中文件目录所对应日志数据的事件发生时间,识别所述延迟到达日...
【专利技术属性】
技术研发人员:牟晓敏,胡苏,顾明,饶明佺,王宝刚,
申请(专利权)人:咪咕文化科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。