The present invention provides a method of distributed data stream processing includes: acquiring streaming data in a data recording business data identification information to be processed in real time value and pending real-time values of temporal characteristics; the identification information is the only representative of one or a group of business data; according to business data identification information storage with the corresponding relationship between the processed real-time values of temporal features, has acquired the business data processing of the real-time value of temporal characteristics; comparing the business data to be processed and processed real-time values of timing characteristics, when the timing has real value later than the value of real-time processing timing, the real-time value of pending business operation and store the real-time value for processing real-time update sequence feature value timing characteristics. Through the technical scheme of the application, the data according to the update sequence data processing, avoid the first update in real-time value after treatment results in error, improve the accuracy of data processing.
【技术实现步骤摘要】
分布式流式数据处理的方法和装置
本申请涉及数据处理
,尤其涉及一种分布式流式数据处理的方法和装置。
技术介绍
随着各种网络应用日渐深入人们的日常生活,很多应用系统每天会产生数以TB(Terabyte,百万兆字节)级计的业务数据。对这些海量数据的实时分析能够提供对应用系统极有价值的信息,例如,对交通监管系统采集的海量视频数据流的实时分析能够为交通疏导提供帮助,对社交网站用户访问行为的实时分析能够及时发现关注热点并推送给更多的用户。海量的实时业务数据通常保存在不同地点、不同软硬件平台、和/或不同类型的数据库中,由实时数据采集系统将数据库中实时变化的业务数据以流的方式源源不断的收集起来,以进行实时数据处理。实时数据采集系统可以采用单线程实现;也可以采用分布式实现,由多个线程并发进行实时数据的采集。由于应用系统的业务数据随时可能发生更新,尤其是一个业务数据可能在极短的时间内发生多次更新,单线程实现的实时数据采集系统能够确保先更新的业务数据实时值在流式数据中先于后更新的业务数据实时值,但是单线程实现的低性能在绝大多数情况下无法满足海量实时数据的处理需求。而分布式实现的实时数据采集系统则可能出现在其生成的分布式流式数据中,业务数据实时值的先后顺序与更新发生的先后顺序不同的情形。现有技术中,依照业务数据在流式数据中的先后顺序对业务数据的实时值进行数据处理。这样,当分布式流式数据中业务数据实时值的先后顺序与更新发生的先后顺序不同时,更新在先的实时值会覆盖更新在后的实时值,导致数据处理的结果错误。
技术实现思路
有鉴于此,本申请提供一种分布式流式数据处理的方法,包括:获取 ...
【技术保护点】
一种分布式流式数据处理的方法,其特征在于,包括:获取流式数据中某一条数据记录的业务数据标识信息、待处理实时值和待处理实时值时序特征;所述标识信息唯一代表一个或一组业务数据;根据存储的业务数据标识信息与已处理实时值时序特征的对应关系,获取所述业务数据的已处理实时值时序特征;比较所述业务数据的待处理和已处理的实时值时序特征,当待处理实时值的时序晚于已处理实时值的时序时,采用待处理实时值进行业务运算并将存储的所述已处理实时值时序特征更新为待处理实时值时序特征。
【技术特征摘要】
1.一种分布式流式数据处理的方法,其特征在于,包括:获取流式数据中某一条数据记录的业务数据标识信息、待处理实时值和待处理实时值时序特征;所述标识信息唯一代表一个或一组业务数据;根据存储的业务数据标识信息与已处理实时值时序特征的对应关系,获取所述业务数据的已处理实时值时序特征;比较所述业务数据的待处理和已处理的实时值时序特征,当待处理实时值的时序晚于已处理实时值的时序时,采用待处理实时值进行业务运算并将存储的所述已处理实时值时序特征更新为待处理实时值时序特征。2.根据权利要求1所述的方法,其特征在于,所述实时值时序特征包括:实时值的生成时间。3.根据权利要求1所述的方法,其特征在于,所述流式数据包括:由携带有数据记录的业务数据标识信息、待处理实时值和待处理实时值时序特征的消息构成的消息流;所述实时值时序特征包括:实时值的生成时间和实时值所在消息的消息标识;所述消息标识能够反映消息生成的时序;所述待处理实时值的时序晚于已处理实时值的时序,包括:待处理实时值的生成时间晚于已处理实时值的生成时间,以及待处理和已处理实时值的生成时间相同并且待处理实时值所在消息的消息标识反映的时序晚于已处理实时值所在消息的消息标识反映的时序。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在尚未存储所述业务数据的已处理实时值时序特征时,采用所述业务数据的待处理实时值进行业务运算、并将所述业务数据的待处理实时值时序特征作为已处理实时值时序特征,保存所述业务数据的标识信息与已处理实时值时序特征的对应关系。5.根据权利要求1所述的方法,其特征在于,所述分布式流式数据处理的方法并行独立运行在至少两个软件功能模块上,处理某一条数据记录的软件功能模块根据所述数据记录的部分或全部业务数据标识信息确定。6.根据权利要求1或5所述的方法,其特征在于,所述标识信息包括:标识特征、和至少一个标识字段,所有标识字段的组合唯一代表一个或一组业务数据,所述标识特征根据所有标识字段组合的预定部分生成。7.根据权利要求6所述的方法,其特征在于,所述标识字段包括:主业务主键标识和应用特征码;所述标识特征为主业务主键标识的摘要值的前若干位。8.一种分布式流式数据处理的装置,其特征在于,包括:...
【专利技术属性】
技术研发人员:冯成林,罗亮,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。