The embodiment of the invention discloses a processing method and a device to follow the behavior data, the original data partition data according to the time information of the data itself corresponds to re sort the average is divided into a plurality of update data partition, and will update the data partition and data transmission exists across the data partitions are likely to follow the execution unit corresponding to the execution unit, according to the position information corresponding to the data partition and internal processing, analysis and follow the behavior across the data partitions, by time and location information of the data itself, to follow the behavior in different types of data analysis, and through the processing load balancing the execution unit between data processing and analysis. General efficient implementation in the case of massive data the following behavior.
【技术实现步骤摘要】
一种跟随行为数据的处理方法和装置
本申请涉及数据分析领域,特别涉及一种跟随行为数据的处理方法和装置。
技术介绍
随着科学技术水平发展,各类数据包括过车,MAC,RFID,旅馆,网吧等呈现爆炸式的增长。在如此海量数据情况下,原有的业务模型及算法已经越来越不能满足客户对业务种类和实时性的要求了。如,当前最多的跟随分析算法只是跟车行为分析,但是随着可以收集的数据种类(比如手机,旅馆,网吧等)越来越多,客户的需求不断的增加与变化(如车与MAC跟随分析,车与RFID的跟随分析等),而原有跟车算法已经不能适用多种类型的数据分析,为减少后续的开发和维护工作量,必须设计一个通用的业务模型和算法。现有技术采用的是跟车关联性算法,经过相同卡口的过车存在空间跟随行为,该算法依据卡口编码进行重分区后,在空间上存在跟随行为的数据会分布在同一个partition中,后续计算只需要比较跟随时间即可。申请人在实现本申请的过程中发现,上述现有的处理方案至少存在如下的问题:该算法虽然在计算执行前就将数据根据卡口编码重分区,减少后续计算维度和代码复杂度,但是该算法存在以下三个缺点:1、基于卡口编码作为空间跟随行为的依据只能处理同类数据(如车跟车,MAC跟MAC),但是不能处理不同类型的数据(如车跟MAC)。2、现实是有些卡口数据量非常大,有些卡口数据量非常小,以卡口编码重分区后导致数据分布不均匀,后续Task数据量小的执行很快,数据量大的执行很慢。而执行慢的Task影响了算法整体的并发执行。3、对于移动采集设备采集到的数据使用采集设备编码进行跟随分析判断是不正确的,因为采集设备是移动,其采到的 ...
【技术保护点】
一种跟随行为数据的处理方法,其特征在于,应用于包括多个执行单元的跟随行为分析装置中,所述方法具体包括:所述跟随行为分析装置获取多个原始数据分区的数据,其中,各所述数据中分别携带相对应的时间信息和位置信息;所述跟随行为分析装置根据所述时间信息,将获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区;所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合;所述跟随行为分析装置将各所述更新数据分区分别分配给各执行单元进行处理,并将所述扩展数据集合广播给各所述执行单元,以使相应的执行单元根据所述位置信息,分别对所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理。
【技术特征摘要】
1.一种跟随行为数据的处理方法,其特征在于,应用于包括多个执行单元的跟随行为分析装置中,所述方法具体包括:所述跟随行为分析装置获取多个原始数据分区的数据,其中,各所述数据中分别携带相对应的时间信息和位置信息;所述跟随行为分析装置根据所述时间信息,将获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区;所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合;所述跟随行为分析装置将各所述更新数据分区分别分配给各执行单元进行处理,并将所述扩展数据集合广播给各所述执行单元,以使相应的执行单元根据所述位置信息,分别对所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理。2.如权利要求1所述的方法,其特征在于,所述时间信息包括所述数据的起始时间和结束时间;所述位置信息包括所述数据所对应的经度信息和纬度信息。3.如权利要求2所述的方法,其特征在于,所述跟随行为分析装置根据所述时间信息,将获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区,具体包括:所述跟随行为分析装置根据各所述数据所对应的起始时间的先后顺序,对获取到的所有数据进行排序;所述跟随行为分析装置根据处理资源配置情况,将排序后的所有数据划分为相应数量的更新数据分区,各所述更新数据分区中所包含的数据数量相一致。4.如权利要求3所述的方法,其特征在于,所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合,具体包括:所述跟随行为分析装置分别识别各所述更新数据分区中所包括的起始时间位于本数据分区尾部的跟随时间区间范围内的数据,以及结束时间大于本数据分区中最大的起始时间的数据;所述跟随行为分析装置将所识别到的数据确定为各所述更新数据分区中存在跨数据分区被跟随可能性的数据,生成扩展数据集合。5.如权利要求4所述的方法,其特征在于,所述相应的执行单元根据所述位置信息,分别对所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理,具体包括:各所述执行单元分别根据自身所处理的数据分区所对应的起始时间范围确定自身的扩展时间范围;各所述执行单元分别在接收到的所述扩展数据集合中获取起始时间和/或结束时间在自身的扩...
【专利技术属性】
技术研发人员:刘清炼,黄群,
申请(专利权)人:浙江宇视科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。