一种跟随行为数据的处理方法和装置制造方法及图纸

技术编号:15746747 阅读:293 留言:0更新日期:2017-07-03 02:44
本申请实施例公开了一种跟随行为数据的处理方法和装置,该方法将原始数据分区中的数据根据数据自身所对应的时间信息进行重新排序,平均划分为多个更新数据分区,并将更新数据分区以及存在跨数据分区被跟随可能性的数据发送给相应的执行单元,以使执行单元根据对应的位置信息,进行数据分区内部和跨数据分区的跟随行为分析处理,从而,通过数据自身的时间和位置信息,在不同类型数据间进行跟随行为分析,并且通过均衡各执行单元间的数据处理量,在海量数据情况下实现高效的通用跟随行为分析处理。

Method and device for processing data following behavior

The embodiment of the invention discloses a processing method and a device to follow the behavior data, the original data partition data according to the time information of the data itself corresponds to re sort the average is divided into a plurality of update data partition, and will update the data partition and data transmission exists across the data partitions are likely to follow the execution unit corresponding to the execution unit, according to the position information corresponding to the data partition and internal processing, analysis and follow the behavior across the data partitions, by time and location information of the data itself, to follow the behavior in different types of data analysis, and through the processing load balancing the execution unit between data processing and analysis. General efficient implementation in the case of massive data the following behavior.

【技术实现步骤摘要】
一种跟随行为数据的处理方法和装置
本申请涉及数据分析领域,特别涉及一种跟随行为数据的处理方法和装置。
技术介绍
随着科学技术水平发展,各类数据包括过车,MAC,RFID,旅馆,网吧等呈现爆炸式的增长。在如此海量数据情况下,原有的业务模型及算法已经越来越不能满足客户对业务种类和实时性的要求了。如,当前最多的跟随分析算法只是跟车行为分析,但是随着可以收集的数据种类(比如手机,旅馆,网吧等)越来越多,客户的需求不断的增加与变化(如车与MAC跟随分析,车与RFID的跟随分析等),而原有跟车算法已经不能适用多种类型的数据分析,为减少后续的开发和维护工作量,必须设计一个通用的业务模型和算法。现有技术采用的是跟车关联性算法,经过相同卡口的过车存在空间跟随行为,该算法依据卡口编码进行重分区后,在空间上存在跟随行为的数据会分布在同一个partition中,后续计算只需要比较跟随时间即可。申请人在实现本申请的过程中发现,上述现有的处理方案至少存在如下的问题:该算法虽然在计算执行前就将数据根据卡口编码重分区,减少后续计算维度和代码复杂度,但是该算法存在以下三个缺点:1、基于卡口编码作为空间跟随行为的依据只能处理同类数据(如车跟车,MAC跟MAC),但是不能处理不同类型的数据(如车跟MAC)。2、现实是有些卡口数据量非常大,有些卡口数据量非常小,以卡口编码重分区后导致数据分布不均匀,后续Task数据量小的执行很快,数据量大的执行很慢。而执行慢的Task影响了算法整体的并发执行。3、对于移动采集设备采集到的数据使用采集设备编码进行跟随分析判断是不正确的,因为采集设备是移动,其采到的数据所在的地球坐标其实是不一样的。
技术实现思路
本申请实施例提供一种跟随行为数据的处理方法和装置,以实现通过数据自身的时间和位置信息,在不同类型数据间进行跟随行为分析,并且通过均衡各执行单元间的数据处理量,在海量数据情况下实现高效的通用跟随行为分析处理。为了达到上述技术目的,本申请提供了一种跟随行为数据的处理方法,应用于包括多个执行单元的跟随行为分析装置中,所述方法具体包括:所述跟随行为分析装置获取多个原始数据分区的数据,其中,各所述数据中分别携带相对应的时间信息和位置信息;所述跟随行为分析装置根据所述时间信息,将获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区;所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合;所述跟随行为分析装置将各所述更新数据分区分别分配给各执行单元进行处理,并将所述扩展数据集合广播给各所述执行单元,以使相应的执行单元根据所述位置信息,分别对所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理。优选的,所述时间信息包括所述数据的起始时间和结束时间;所述位置信息包括所述数据所对应的经度信息和纬度信息。优选的,所述跟随行为分析装置根据所述时间信息,将获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区,具体包括:所述跟随行为分析装置根据各所述数据所对应的起始时间的先后顺序,对获取到的所有数据进行排序;所述跟随行为分析装置根据处理资源配置情况,将排序后的所有数据划分为相应数量的更新数据分区,各所述更新数据分区中所包含的数据数量相一致。优选的,所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合,具体包括:所述跟随行为分析装置分别识别各所述更新数据分区中所包括的起始时间位于本数据分区尾部的跟随时间区间范围内的数据,以及结束时间大于本数据分区中最大的起始时间的数据;所述跟随行为分析装置将所识别到的数据确定为各所述更新数据分区中存在跨数据分区被跟随可能性的数据,生成扩展数据集合。优选的,所述相应的执行单元根据所述位置信息,分别对所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理,具体包括:各所述执行单元分别根据自身所处理的数据分区所对应的起始时间范围确定自身的扩展时间范围;各所述执行单元分别在接收到的所述扩展数据集合中获取起始时间和/或结束时间在自身的扩展时间范围内,且不属于自身所处理的数据分区的数据,作为关联数据;各所述执行单元分别在自身所分配的更新数据分区中的数据和所过滤得到的关联数据中,确定起始时间和结束时间之间的差值小于跟随时间区间值,并且位置信息相匹配的两个数据之间存在跟随行为。另一方面,本申请实施例还提出了一种跟随行为分析装置,包括多个执行单元,具体包括:获取模块,用于获取多个原始数据分区的数据,其中,各所述数据中分别携带相对应的时间信息和位置信息;更新模块,用于根据所述时间信息,将所述获取模块所获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区;生成模块,用于识别各所述更新模块所划分的更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合;发送模块,用于将各所述更新数据分区分别分配给各所述执行单元进行处理,并将所述生成模块所生成的扩展数据集合广播给各所述执行单元;所述执行单元,用于根据所述位置信息,分别对所述发送模块所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理。优选的,所述时间信息包括所述数据的起始时间和结束时间;所述位置信息包括所述数据所对应的经度信息和纬度信息。优选的,所述更新模块,具体用于:根据各所述数据所对应的起始时间的先后顺序,对获取到的所有数据进行排序;根据处理资源配置情况,将排序后的所有数据划分为相应数量的更新数据分区,各所述更新数据分区中所包含的数据数量相一致。优选的,所述生成模块,具体包括:分别识别各所述更新数据分区中所包括的起始时间位于本数据分区尾部的跟随时间区间范围内的数据,以及结束时间大于本数据分区中最大的起始时间的数据;将所识别到的数据确定为各所述更新数据分区中存在跨数据分区被跟随可能性的数据,生成扩展数据集合。优选的,所述执行模块,具体用于:根据自身所处理的数据分区所对应的起始时间范围确定自身的扩展时间范围;在接收到的所述扩展数据集合中获取起始时间和/或结束时间在自身的扩展时间范围内,且不属于自身所处理的数据分区的数据,作为关联数据;在自身所分配的更新数据分区中的数据和所过滤得到的关联数据中,确定起始时间和结束时间之间的差值小于跟随时间区间值,并且位置信息相匹配的两个数据之间存在跟随行为。与现有技术相比,本申请实施例所提出的技术方案的有益技术效果包括:本申请实施例公开了一种跟随行为数据的处理方法和装置,该方法将原始数据分区中的数据根据数据自身所对应的时间信息进行重新排序,平均划分为多个更新数据分区,并将更新数据分区以及存在跨数据分区被跟随可能性的数据发送给相应的执行单元,以使执行单元根据对应的位置信息,进行数据分区内部和跨数据分区的跟随行为分析处理,从而,通过数据自身的时间和位置信息,在不同类型数据间进行跟随行为分析,并且通过均衡各执行单元间的数据处理量,在海量数据情况下实现本文档来自技高网
...
一种跟随行为数据的处理方法和装置

【技术保护点】
一种跟随行为数据的处理方法,其特征在于,应用于包括多个执行单元的跟随行为分析装置中,所述方法具体包括:所述跟随行为分析装置获取多个原始数据分区的数据,其中,各所述数据中分别携带相对应的时间信息和位置信息;所述跟随行为分析装置根据所述时间信息,将获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区;所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合;所述跟随行为分析装置将各所述更新数据分区分别分配给各执行单元进行处理,并将所述扩展数据集合广播给各所述执行单元,以使相应的执行单元根据所述位置信息,分别对所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理。

【技术特征摘要】
1.一种跟随行为数据的处理方法,其特征在于,应用于包括多个执行单元的跟随行为分析装置中,所述方法具体包括:所述跟随行为分析装置获取多个原始数据分区的数据,其中,各所述数据中分别携带相对应的时间信息和位置信息;所述跟随行为分析装置根据所述时间信息,将获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区;所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合;所述跟随行为分析装置将各所述更新数据分区分别分配给各执行单元进行处理,并将所述扩展数据集合广播给各所述执行单元,以使相应的执行单元根据所述位置信息,分别对所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理。2.如权利要求1所述的方法,其特征在于,所述时间信息包括所述数据的起始时间和结束时间;所述位置信息包括所述数据所对应的经度信息和纬度信息。3.如权利要求2所述的方法,其特征在于,所述跟随行为分析装置根据所述时间信息,将获取到的所有数据进行排序,并将排序后的所有数据平均划分为多个更新数据分区,具体包括:所述跟随行为分析装置根据各所述数据所对应的起始时间的先后顺序,对获取到的所有数据进行排序;所述跟随行为分析装置根据处理资源配置情况,将排序后的所有数据划分为相应数量的更新数据分区,各所述更新数据分区中所包含的数据数量相一致。4.如权利要求3所述的方法,其特征在于,所述跟随行为分析装置识别各所述更新数据分区中存在跨数据分区被跟随可能性的数据,并将所识别到的数据生成扩展数据集合,具体包括:所述跟随行为分析装置分别识别各所述更新数据分区中所包括的起始时间位于本数据分区尾部的跟随时间区间范围内的数据,以及结束时间大于本数据分区中最大的起始时间的数据;所述跟随行为分析装置将所识别到的数据确定为各所述更新数据分区中存在跨数据分区被跟随可能性的数据,生成扩展数据集合。5.如权利要求4所述的方法,其特征在于,所述相应的执行单元根据所述位置信息,分别对所分配的更新数据分区中的数据,以及过滤所述扩展数据集合得到的关联数据,进行数据分区内部和跨数据分区的跟随行为分析处理,具体包括:各所述执行单元分别根据自身所处理的数据分区所对应的起始时间范围确定自身的扩展时间范围;各所述执行单元分别在接收到的所述扩展数据集合中获取起始时间和/或结束时间在自身的扩...

【专利技术属性】
技术研发人员:刘清炼黄群
申请(专利权)人:浙江宇视科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1