基于流窗口实现的实时流数据处理方法及装置制造方法及图纸

技术编号:24332051 阅读:23 留言:0更新日期:2020-05-29 20:06
本发明专利技术公开了一种基于流窗口实现的实时流数据处理方法及装置,该方法包括:从至少一个数据源获取实时流数据,实时流数据包含运单流数据及配送设施流数据;对运单流数据及配送设施流数据进行数据联接处理,得到数据宽表;接收用于表征压力平衡状态的单量指标数据的计算任务,根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对数据宽表内的数据进行聚合计算,得到对应的单量指标数据。本发明专利技术实施例提供的方案,对于不同时间定义的单量指标数据,能够通过调用相应的流窗口的处理进程实现个性化地聚合计算单量指标数据,从而方便根据所计算的单量指标数据进行压力平衡,实现运单合理调度的需求。

Real time stream data processing method and device based on stream window

【技术实现步骤摘要】
基于流窗口实现的实时流数据处理方法及装置
本专利技术涉及数据处理
,具体涉及一种基于流窗口实现的实时流数据处理方法及装置。
技术介绍
运单在进行配送过程中,可能会由于各种原因导致供需失衡,例如,由于天气原因导致配送慢、高峰单量激增导致运力不足、线上促销导致运力压力等等。因此需要一种自动化压力平衡调控手段,能对运单进行缩小配送范围、增加配送设施配送时间等操作,保证运单的及时履约,减少商户、运力的经济损失。表征压力平衡的数据称为单量指标数据,例如:不同运单状态下的单量、配送设施拒单量、配送设施接单时长、配送中配送设施数量等等。这些单量指标数据对时间的定义不同,现有技术针对不同的单量指标数据需要单独设计数据处理流程,非常繁琐,因此,如何能在数据的数据量级别很大的情况下,做到个性化计算是亟待解决的问题。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的基于流窗口实现的实时流数据处理方法及装置。根据本专利技术实施例的一个方面,提供了一种基于流窗口实现的实时流数据处理方法,包括:从至少一个数据源获取实时流数据,实时流数据包含运单流数据及配送设施流数据;对运单流数据及配送设施流数据进行数据联接处理,得到数据宽表;接收用于表征压力平衡状态的单量指标数据的计算任务,根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对数据宽表内的数据进行聚合计算,得到对应的单量指标数据。可选地,方法还包括:预先部署多个流窗口的处理进程,其中,各个流窗口分别对应于具有各种数据特性的单量指标数据。可选地,根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对数据宽表内的数据进行聚合计算,得到对应的单量指标数据进一步包括:建立单量指标数据坐标系,并将数据宽表内的数据映射到单量指标数据坐标系中,其中,坐标系的各坐标轴的坐标参数分别为:时间、单量指标数据、地理空间信息;根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算,得到对应的单量指标数据。可选地,根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算,得到对应的单量指标数据进一步包括:根据单量指标数据的实时特性调用全局窗口的处理进程,由全局窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算,得到各时刻的单量指标数据,其中,单量指标数据坐标系中的数据处于同一全局窗口中。可选地,根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算,得到对应的单量指标数据进一步包括:根据单量指标数据的累计同比特性调用全局窗口的处理进程,由全局窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算;调用滚动窗口的处理进程,由滚动窗口的处理进程依据窗口尺寸参数对全局窗口的处理进程的聚合结果进行聚合计算,得到累计同比单量指标数据,其中,滚动窗口的窗口尺寸参数根据第一聚合时间确定。可选地,根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算,得到对应的单量指标数据进一步包括:根据单量指标数据的切片特性调用滑动窗口的处理进程,由滑动窗口的处理进程依据窗口尺寸参数及滑动步长对单量指标数据坐标系中的数据进行聚合计算,得到切片单量指标数据,其中,滑动窗口的窗口尺寸参数根据第二聚合时间确定。可选地,运单流数据包含以下维度数据的一项或多项:运单号、运单状态、运单创建时间、运单拒单时间、运单完成时间、商圈ID、网格ID、站点ID;配送设施流数据包含以下维度数据的一项或多项:配送设施ID、运单号和/或配送设施接单时间。可选地,在从至少一个数据源获取实时流数据之后,方法还包括:若检测到实时流数据存在部分维度数据缺失,则对实时流数据进行数据补全处理。可选地,在从至少一个数据源获取实时流数据之后,方法还包括:若检测到实时流数据存在欺诈数据或预订单数据或重复数据,则对实时流数据进行数据清洗处理。根据本专利技术实施例的另一方面,提供了一种基于流窗口实现的实时流数据处理装置,包括:获取模块,适于从至少一个数据源获取实时流数据,实时流数据包含运单流数据及配送设施流数据;数据联接处理模块,适于对运单流数据及配送设施流数据进行数据联接处理,得到数据宽表;聚合计算模块,适于接收用于表征压力平衡状态的单量指标数据的计算任务,根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对数据宽表内的数据进行聚合计算,得到对应的单量指标数据。可选地,装置还包括:部署模块,适于预先部署多个流窗口的处理进程,其中,各个流窗口分别对应于具有各种数据特性的单量指标数据。可选地,聚合计算模块进一步适于:建立单量指标数据坐标系,并将数据宽表内的数据映射到单量指标数据坐标系中,其中,坐标系的各坐标轴的坐标参数分别为:时间、单量指标数据、地理空间信息;根据单量指标数据的数据特性调用相应的流窗口的处理进程,由流窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算,得到对应的单量指标数据。可选地,聚合计算模块进一步适于:根据单量指标数据的实时特性调用全局窗口的处理进程,由全局窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算,得到各时刻的单量指标数据,其中,单量指标数据坐标系中的数据处于同一全局窗口中。可选地,聚合计算模块进一步适于:根据单量指标数据的累计同比特性调用全局窗口的处理进程,由全局窗口的处理进程对单量指标数据坐标系中的数据进行聚合计算;调用滚动窗口的处理进程,由滚动窗口的处理进程依据窗口尺寸参数对全局窗口的处理进程的聚合结果进行聚合计算,得到累计同比单量指标数据,其中,滚动窗口的窗口尺寸参数根据第一聚合时间确定。可选地,聚合计算模块进一步适于:根据单量指标数据的切片特性调用滑动窗口的处理进程,由滑动窗口的处理进程依据窗口尺寸参数及滑动步长对单量指标数据坐标系中的数据进行聚合计算,得到切片单量指标数据,其中,滑动窗口的窗口尺寸参数根据第二聚合时间确定。可选地,运单流数据包含以下维度数据的一项或多项:运单号、运单状态、运单创建时间、运单拒单时间、运单完成时间、商圈ID、网格ID、站点ID;配送设施流数据包含以下维度数据的一项或多项:配送设施ID、运单号和/或配送设施接单时间。可选地,装置还包括:数据补全处理模块,适于:若检测到实时流数据存在部分维度数据缺失,则对实时流数据进行数据补全处理。可选地,装置还包括:数据清洗处理模块,适于若检测到实时流数据存在欺诈数据或预订单数据或重复数据,则对实时流数据进行数据清洗处理。根据本专利技术实施例的又一方面,提供了一种计算设备,包括:处本文档来自技高网...

【技术保护点】
1.一种基于流窗口实现的实时流数据处理方法,包括:/n从至少一个数据源获取实时流数据,所述实时流数据包含运单流数据及配送设施流数据;/n对所述运单流数据及所述配送设施流数据进行数据联接处理,得到数据宽表;/n接收用于表征压力平衡状态的单量指标数据的计算任务,根据所述单量指标数据的数据特性调用相应的流窗口的处理进程,由所述流窗口的处理进程对所述数据宽表内的数据进行聚合计算,得到对应的单量指标数据。/n

【技术特征摘要】
1.一种基于流窗口实现的实时流数据处理方法,包括:
从至少一个数据源获取实时流数据,所述实时流数据包含运单流数据及配送设施流数据;
对所述运单流数据及所述配送设施流数据进行数据联接处理,得到数据宽表;
接收用于表征压力平衡状态的单量指标数据的计算任务,根据所述单量指标数据的数据特性调用相应的流窗口的处理进程,由所述流窗口的处理进程对所述数据宽表内的数据进行聚合计算,得到对应的单量指标数据。


2.根据权利要求1所述的方法,其中,所述方法还包括:预先部署多个流窗口的处理进程,其中,各个流窗口分别对应于具有各种数据特性的单量指标数据。


3.根据权利要求1或2所述的方法,其中,所述根据所述单量指标数据的数据特性调用相应的流窗口的处理进程,由所述流窗口的处理进程对所述数据宽表内的数据进行聚合计算,得到对应的单量指标数据进一步包括:
建立单量指标数据坐标系,并将所述数据宽表内的数据映射到单量指标数据坐标系中,其中,坐标系的各坐标轴的坐标参数分别为:时间、单量指标数据、地理空间信息;
根据所述单量指标数据的数据特性调用相应的流窗口的处理进程,由所述流窗口的处理进程对所述单量指标数据坐标系中的数据进行聚合计算,得到对应的单量指标数据。


4.根据权利要求3所述的方法,其中,所述根据所述单量指标数据的数据特性调用相应的流窗口的处理进程,由所述流窗口的处理进程对所述单量指标数据坐标系中的数据进行聚合计算,得到对应的单量指标数据进一步包括:
根据所述单量指标数据的实时特性调用全局窗口的处理进程,由所述全局窗口的处理进程对所述单量指标数据坐标系中的数据进行聚合计算,得到各时刻的单量指标数据,其中,所述单量指标数据坐标系中的数据处于同一全局窗口中。


5.根据权利要求3所述的方法,其中,所述根据所述单量指标数据的数据特性调用相应的流窗口的处理进程,由所述流窗口的处理进程对所述单量指标数据坐标系中的数据进行聚合计算,得到对应的单量指标数据进一步包括:
根据所述单量指标数据的累计同比特性调用全局窗口的处理进程,由所述全局窗口的处理进程对所述单量指标数据坐标系中的数据进行聚合计算;
调用滚动...

【专利技术属性】
技术研发人员:夏志富许巧生孔垂建
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1