System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据处理方法、装置、设备、存储介质及程序产品制造方法及图纸_技高网

一种数据处理方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:40140223 阅读:11 留言:0更新日期:2024-01-23 23:30
本申请提供了一种基于分布式计算引擎的数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品;可应用于地图领域,方法包括:接收到数据恢复请求,所述数据恢复请求用于请求对目标地理区域在目标时间段内的定位数据进行恢复;响应于所述数据恢复请求,确定所述定位数据对应的标记时间戳,并基于所述标记时间戳获取所述定位数据对应的备份数据;基于所述备份数据对所述定位数据进行恢复,得到恢复的定位数据;基于所述恢复的定位数据,对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据。通过本申请,能够提高预测结果的准确性。

【技术实现步骤摘要】

本申请涉及计算机技术,尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品


技术介绍

1、分布式计算引擎(如流式数据计算引擎)正在逐渐兴起,并渗透至各个行业。目前,几乎所有的云服务商都提供流式数据计算引擎,可用于数据聚合、数据关联、数据监测、以及数据分析等场景。当前主流的流式数据计算引擎以apache flink、apache sparkstreaming、及storm等系统为代表,使用有向无环图表示用户作业,通过窗口技术实现时间维度的数据聚合,并通过事件消息实现乱序消息处理支持。

2、在流式数据计算引擎进行实时计算出现故障时,由于定位数据的上报事件并不是连续定增的,并存在大量的乱序事件、且乱序事件的时间有时相差太长(如可能相差十几分钟以上),故当程序发生故障时,相关技术采用自然时间无法修复故障期间的定位数据,通常只能使用同期历史数据进行数据修复,但此种采用离线数据的修复方式不是基于当前区域位置的实际情况去修复的,进而导致区域位置的人流、热力等区域状态信息的预测延时大,使得预测结果不准确。


技术实现思路

1、本申请实施例提供一种基于分布式计算引擎的数据处理方法、装置、设备、计算机可读存储介质及计算机程序产品,能够提高预测结果的准确性。

2、本申请实施例的技术方案是这样实现的:

3、本申请实施例提供一种基于分布式计算引擎的数据处理方法,包括:

4、接收到数据恢复请求,所述数据恢复请求用于请求对目标地理区域在目标时间段内的定位数据进行恢复;

5、响应于所述数据恢复请求,确定所述定位数据对应的标记时间戳,并基于所述标记时间戳获取所述定位数据对应的备份数据;

6、其中,所述定位数据是通过所述分布式计算引擎对所述目标地理区域在所述目标时间段内的原始定位数据计算得到的,所述标记时间戳基于所述分布式计算引擎获取所述原始定位数据的获取时刻而确定;

7、基于所述备份数据对所述定位数据进行恢复,得到恢复的定位数据;

8、基于所述恢复的定位数据,对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据。

9、本申请实施例提供一种基于分布式计算引擎的数据处理装置,包括:

10、请求接收模块,用于接收到数据恢复请求,所述数据恢复请求用于请求对目标地理区域在目标时间段内的定位数据进行恢复;

11、数据获取模块,用于响应于所述数据恢复请求,确定所述定位数据对应的标记时间戳,并基于所述标记时间戳获取所述定位数据对应的备份数据;

12、其中,所述定位数据是通过所述分布式计算引擎对所述目标地理区域在所述目标时间段内的原始定位数据计算得到的,所述标记时间戳基于所述分布式计算引擎获取所述原始定位数据的获取时刻而确定;

13、数据恢复模块,用于基于所述备份数据对所述定位数据进行恢复,得到恢复的定位数据;

14、数据预测模块,用于基于所述恢复的定位数据,对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据。

15、上述方案中,所述接收到数据恢复请求之前,所述装置还包括:数据接收模块,用于获取所述目标地理区域在所述目标时间段内的原始定位数据;对所述原始定位数据进行解析处理,得到所述原始定位数据的解析数据;对所述解析数据进行标记处理,得到携带标记时间戳的标记数据,并将所述标记数据确定为所述定位数据;将所述定位数据存储至第一数据库中所述定位数据对应的区域中,得到所述定位数据对应的备份数据。

16、上述方案中,所述数据接收模块,还用于获取至少一个定位设备在所述目标时间段内上报的定位日志数据;确定各所述定位设备归属的地理区域,并基于各所述地理区域从所述定位日志数据中,筛选出归属于所述目标地理区域的定位设备上报的目标定位日志数据;将所述目标定位日志数据确定为所述目标地理区域在所述目标时间段内的原始定位数据。

17、上述方案中,所述数据接收模块,还用于确定所述原始定位数据对应的数据协议;根据所述数据协议,对所述原始定位数据进行合法性校验,得到校验结果;当所述校验结果表征所述原始定位数据为合法数据时,对所述原始定位数据进行解析处理,得到所述原始定位数据的解析数据。

18、上述方案中,所述数据接收模块,还用于确定所述分布式系统获取所述原始定位数据所对应的获取时刻;基于所述获取时刻,对所述解析数据进行标记处理,得到对应的标记数据,所述标记数据携带的标记时间戳为所述获取时刻。

19、上述方案中,所述将所述标记数据确定为所述定位数据之后,所述装置还包括:数据传输模块,用于将所述定位数据输入至预测进程,其中,所述预测进程,用于基于所述定位数据对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据;相应的,所述请求接收模块,还用于响应于所述预测进程存在故障,接收到存在故障的所述预测进程触发的数据恢复请求。

20、上述方案中,所述将所述定位数据输入至预测进程之后,所述装置还包括:数据处理模块,用于确定预先设置的延迟时间,并根据所述预测进程在当前时间窗口内接收到的所述定位数据的标记时间戳及所述延迟时间,确定所述预测进程的水位线;获取所述预测进程在所述当前时间窗口内接收到所述定位数据时,所述水位线与所述延迟时间之间的差值;当所述差值等于所述当前时间窗口的右边界时,控制所述预测进程基于所述定位数据对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据。

21、上述方案中,所述数据处理模块,还用于当所述预测进程在所述当前时间窗口内接收到的定位数据的数量为至少两个时,分别获取各所述定位数据的标记时间戳与所述延迟时间的差值;从各所述差值中选择最大的差值作为所述水位线。

22、上述方案中,所述数据预测模块,还用于基于所述恢复的定位数据,通过区域预测模型对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据;其中,所述区域预测模型基于地理区域样本在目标时间段内的定位数据样本、以及所述定位数据样本携带的区域状态标签训练得到的。

23、上述方案中,所述得到用于表征所述目标地理区域的热力分布的区域状态数据之后,所述装置还包括:数据存储模块,用于将所述区域状态数据存储至第一数据库中处理结果对应的区域中。

24、上述方案中,所述得到用于表征所述目标地理区域的热力分布的区域状态数据之后,所述装置还包括:结果组装模块,用于确定所述目标地理区域对应的应用场景;根据所述应用场景,采用与所述应用场景相适配的组装方式,对所述区域状态数据进行组装处理,得到所述目标地理区域在所述目标时间段内的区域状态结果;将所述区域状态结果存储至第二数据库中。

25、本申请本文档来自技高网...

【技术保护点】

1.一种基于分布式计算引擎的数据处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述接收到数据恢复请求之前,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,所述获取所述目标地理区域在所述目标时间段内的原始定位数据,包括:

4.如权利要求2所述的方法,其特征在于,所述对所述原始定位数据进行解析处理,得到所述原始定位数据的解析数据,包括:

5.如权利要求2所述的方法,其特征在于,所述对所述解析数据进行标记处理,得到携带标记时间戳的标记数据,包括:

6.如权利要求2所述的方法,其特征在于,所述将所述标记数据确定为所述定位数据之后,所述方法还包括:

7.如权利要求6所述的方法,其特征在于,所述将所述定位数据输入至预测进程之后,所述方法还包括:

8.如权利要求7所述的方法,其特征在于,所述根据当前时间窗口内接收到的所述定位数据的标记时间戳及所述延迟时间,确定所述预测进程的水位线,包括:

9.如权利要求1所述的方法,其特征在于,所述基于所述恢复的定位数据,对所述目标地理区域在所述目标时间段内的区域状态进行预测,得到用于表征所述目标地理区域的热力分布的区域状态数据,包括:

10.如权利要求1所述的方法,其特征在于,所述得到用于表征所述目标地理区域的热力分布的区域状态数据之后,所述方法还包括:

11.如权利要求1所述的方法,其特征在于,所述得到用于表征所述目标地理区域的热力分布的区域状态数据之后,所述方法还包括:

12.一种基于分布式计算引擎的数据处理装置,其特征在于,所述装置包括:

13.一种电子设备,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,存储有可执行指令用于被处理器执行时,实现权利要求1至11任一项所述的基于分布式计算引擎的数据处理方法。

15.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时,实现权利要求1至11任一项所述的基于分布式计算引擎的数据处理方法。

...

【技术特征摘要】

1.一种基于分布式计算引擎的数据处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述接收到数据恢复请求之前,所述方法还包括:

3.如权利要求2所述的方法,其特征在于,所述获取所述目标地理区域在所述目标时间段内的原始定位数据,包括:

4.如权利要求2所述的方法,其特征在于,所述对所述原始定位数据进行解析处理,得到所述原始定位数据的解析数据,包括:

5.如权利要求2所述的方法,其特征在于,所述对所述解析数据进行标记处理,得到携带标记时间戳的标记数据,包括:

6.如权利要求2所述的方法,其特征在于,所述将所述标记数据确定为所述定位数据之后,所述方法还包括:

7.如权利要求6所述的方法,其特征在于,所述将所述定位数据输入至预测进程之后,所述方法还包括:

8.如权利要求7所述的方法,其特征在于,所述根据当前时间窗口内接收到的所述定位数据的标记时间戳及所述延迟时间,确定所述预测进程的水位线,包括:

...

【专利技术属性】
技术研发人员:吉坤李一非
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1