数据处理方法和服务器集群技术

技术编号:24168471 阅读:16 留言:0更新日期:2020-05-16 02:11
本申请提供一种数据处理方法和服务器集群,在一个实施例中的方法可应用于区域分析系统中的第一节点,该方法包括:获取多个轨迹数据中每个轨迹数据对应的时空特征;根据该时空特征中的空间信息,对该多个轨迹数据中的每个轨迹数据进行分类,得到该多个轨迹数据中的每个轨迹数据对应的分片索引数据;对该多个轨迹数据中的每个轨迹数据的时空特征进行编码,得到时空特征编码;根据该分片索引数据以及该时空特征编码,为该多个轨迹数据生成至少一个索引文件,同一个该索引文件内的所有时空特征编码对应同一个分片索引数据;将该至少一个索引文件分配给该区域分析系统中的至少一个第二节点,以供每个该第二节点对该索引文件进行存储。

【技术实现步骤摘要】
数据处理方法和服务器集群
本申请涉及大数据处理
,具体而言,涉及一种数据处理方法和服务器集群。
技术介绍
在大数据处理技术背景下,当需要通过活动轨迹情况分析出一些时空特征时,如何能够在短时间内得到符合特征的分析结果是一个难题。以警方的活动轨迹分析为例,当前警方在进行活动轨迹分析业务时,面对一个区县的数据量时就已经存在数据处理压力,而若是数据量再增大,例如面临市级、省级的数据量时,难以在短时间内(例如一天内、一个晚上等)得出分析结果,处理效率低。为了提升处理速度,目前的一种做法是基于当前通用的大数据平台实现存储和计算。但目前的做法只是借用了分布式系统的框架,是仅通过增加计算节点的方式提升处理能力。而在实际应用中,使用轨迹数据参与计算时,数据量大且处理逻辑有一定复杂性。因此,虽然在初期通过传统的分布式系统能够改善前述的效率问题,但是等到系统使用一段时间后,数据量快速增长,传统分布式系统的弊端将显现,数据处理效率较低。
技术实现思路
本申请实施例的目的在于提供一种数据处理方法和服务器集群,用以改善现有技术中对于大量的轨迹数据难以快速处理的问题。第一方面,本申请实施例提供一种数据处理方法,应用于区域分析系统中的第一节点,所述方法包括:获取多个轨迹数据中每个轨迹数据对应的时空特征;根据所述时空特征中的空间信息,对所述多个轨迹数据中的每个轨迹数据进行分类,得到所述多个轨迹数据中的每个轨迹数据对应的分片索引数据;对所述多个轨迹数据中的每个轨迹数据的时空特征进行编码,得到时空特征编码;根据所述分片索引数据以及所述时空特征编码,为所述多个轨迹数据生成至少一个索引文件,同一个所述索引文件内的所有时空特征编码对应同一个分片索引数据;将所述至少一个索引文件分配给所述区域分析系统中的至少一个第二节点,以供每个所述第二节点对所述索引文件进行存储。在上述方法中,由于生成的索引文件是按照分片索引数据生成的,且索引文件中包括多个时空特征编码,将索引文件发送给第二节点,可以实现对于时空特征的索引压缩以及数据的本地化。通过数据压缩和分片索引的方式可以降低原始轨迹数据的大小,能够加快数据导入至内存的速度,从而有利于提升整个系统的数据分析效率。由于经过了数据压缩和分片索引的分发存储,因此相较于现有技术,即使数据量大幅增加,也不会对系统造成过大负担,能够对大量的轨迹数据进行快速存储。在可选的实施方式中,所述时空特征还包括时间信息,所述对所述多个轨迹数据中的每个轨迹数据进行分类,得到所述多个轨迹数据中的每个轨迹数据对应的分片索引数据,包括:对于所述多个轨迹数据中的每个轨迹数据,根据所述时空特征中的空间信息确定区域标签,以及根据所述时空特征中的时间信息确定时间标签;基于所述区域标签和所述时间标签,生成所述多个轨迹数据中的每个轨迹数据对应的分片索引数据。通过上述实现方式,采用轨迹数据的空间信息、时间信息分别构建索引所需的标签,从而得到分片索引数据,有利于更为快速地加载数据。在可选的实施方式中,所述时空特征还包括时间信息、活动次数,所述对所述多个轨迹数据中的每个轨迹数据的时空特征进行编码,得到时空特征编码,包括:根据所述空间信息、所述时间信息以及所述活动次数,对所述多个轨迹数据中的每个轨迹数据的时空特征进行编码,得到预设字节的时空特征编码。通过上述实现方式,能够对大量的轨迹数据进行数据压缩,降低数据存储量,有利于数据的快速导入与读取。在可选的实施方式中,所述方法还包括:向所述至少一个第二节点发送区域分析任务,以供所述至少一个第二节点中的每个第二节点根据所述区域分析任务确定目标分片索引数据,并读取所述目标分片索引数据对应的索引文件,并对读取到的所述目标分片索引数据对应的索引文件内存储的各个时空特征编码进行解析,以得到区域分析结果;接收所述至少一个第二节点中的任意节点发送的区域分析结果;对接收到的区域分析结果进行汇总并存储。通过上述实现方式,利用了区域分析业务的独立性,按区域进行数据的分布式存储,并将数据本地化,且采用数据压缩、分片索引的分发方式加快了数据读取速度,结合区域时空特征的分布式任务处理模式,提升了整体系统对于各个区域的分析计算速度。相较于传统方案中在数据增加的情况下一味增加计算节点的处理方式,可以有效降低设备成本,且能够降低系统内部的通信次数,提升带宽利用率,提升数据处理效率。第二方面,本申请实施例提供一种数据处理方法,应用于区域分析系统中的多个第二节点中的任一节点,所述方法包括:接收所述区域分析系统中的第一节点发送的至少一个索引文件,每个所述索引文件包括至少一个时空特征编码,同一所述索引文件内的所有时空特征编码对应同一个分片索引数据;其中,所述分片索引数据是所述第一节点根据每个轨迹数据的时空特征中的空间信息进行分类确定的,所述时空特征编码是所述第一节点根据每个轨迹数据的时空特征进行编码得到的;根据每个索引文件对应的分片索引数据,对所述第一节点发送的每个索引文件进行存储。在上述方法中,任一第二节点可以对第一节点发送的每个索引文件进行存储,实现整个系统中的数据的分布式存储与数据本地化。由于各个索引文件是根据分片索引数据生成的,且索引文件中存储的是时空特征编码,相较于直接存储原始轨迹数据的方式,实现了数据压缩且可以基于索引实现数据的快速导入,有利于提升对于大量轨迹数据的执行效率。在可选的实施方式中,所述方法还包括:对同一分片索引数据对应的多个所述索引文件进行排序。通过上述实现方式,有利于对有序的存储内容进行快速查找,从而提升执行效率。在可选的实施方式中,所述方法还包括:响应所述第一节点的区域分析请求,根据所述区域分析请求确定目标分片索引数据;加载并读取所述目标分片索引数据对应的索引文件;对读取到的所述目标分片索引数据对应的索引文件内已存储的各个时空特征编码进行解析,得到区域分析结果;将所述区域分析结果发送给所述第一节点,以供所述第一节点根据所述区域分析结果进行汇总处理。通过上述实现方式,由于在存储阶段已经利用了业务独立性实现了数据本地化,且底层存储的是压缩得到的编码,在接收到第一节点的任务时,基于确定出的分片索引数据和相应的索引文件就可以进行数据的快速导入,从而快速对各个编码进行解析,提升数据分析效率。相较于传统方案中在数据增加的情况下一味增加计算节点的处理方式,可以降低系统内部通信次数。在可选的实施方式中,所述对读取到的所述目标分片索引数据对应的索引文件内已存储的各个时空特征编码进行解析,得到区域分析结果,包括:对于读取到的索引文件中已存储的每个时空特征编码,提取指定字节的编码内容以进行解析,得到所述区域分析结果。通过上述实现方式可以在无需对各条编码进行完整读取的情况下提取有效特征,提升数据处理效率。在可选的实施方式中,所述根据所述区域分析请求确定目标分片索引数据,包括本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,应用于区域分析系统中的第一节点,所述方法包括:/n获取多个轨迹数据中每个轨迹数据对应的时空特征;/n根据所述时空特征中的空间信息,对所述多个轨迹数据中的每个轨迹数据进行分类,得到所述多个轨迹数据中的每个轨迹数据对应的分片索引数据;/n对所述多个轨迹数据中的每个轨迹数据的时空特征进行编码,得到时空特征编码;/n根据所述分片索引数据以及所述时空特征编码,为所述多个轨迹数据生成至少一个索引文件,同一个所述索引文件内的所有时空特征编码对应同一个分片索引数据;/n将所述至少一个索引文件分配给所述区域分析系统中的至少一个第二节点,以供每个所述第二节点对所述索引文件进行存储。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于区域分析系统中的第一节点,所述方法包括:
获取多个轨迹数据中每个轨迹数据对应的时空特征;
根据所述时空特征中的空间信息,对所述多个轨迹数据中的每个轨迹数据进行分类,得到所述多个轨迹数据中的每个轨迹数据对应的分片索引数据;
对所述多个轨迹数据中的每个轨迹数据的时空特征进行编码,得到时空特征编码;
根据所述分片索引数据以及所述时空特征编码,为所述多个轨迹数据生成至少一个索引文件,同一个所述索引文件内的所有时空特征编码对应同一个分片索引数据;
将所述至少一个索引文件分配给所述区域分析系统中的至少一个第二节点,以供每个所述第二节点对所述索引文件进行存储。


2.根据权利要求1所述的方法,其特征在于,所述时空特征还包括时间信息,所述对所述多个轨迹数据中的每个轨迹数据进行分类,得到所述多个轨迹数据中的每个轨迹数据对应的分片索引数据,包括:
对于所述多个轨迹数据中的每个轨迹数据,根据所述时空特征中的空间信息确定区域标签,以及根据所述时空特征中的时间信息确定时间标签;
基于所述区域标签和所述时间标签,生成所述多个轨迹数据中的每个轨迹数据对应的分片索引数据。


3.根据权利要求1所述的方法,其特征在于,所述时空特征还包括时间信息、活动次数,所述对所述多个轨迹数据中的每个轨迹数据的时空特征进行编码,得到时空特征编码,包括:
根据所述空间信息、所述时间信息以及所述活动次数,对所述多个轨迹数据中的每个轨迹数据的时空特征进行编码,得到预设字节的时空特征编码。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向所述至少一个第二节点发送区域分析任务,以供所述至少一个第二节点中的每个第二节点根据所述区域分析任务确定目标分片索引数据,并读取所述目标分片索引数据对应的索引文件,并对读取到的所述目标分片索引数据对应的索引文件内存储的各个时空特征编码进行解析,以得到区域分析结果;
接收所述至少一个第二节点中的任意节点发送的区域分析结果;
对接收到...

【专利技术属性】
技术研发人员:梁秀钦白格日乐图王俊威齐云飞丁杰超
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1