一种基于Spark技术的物流分拣数据统计方法技术

技术编号:18767012 阅读:51 留言:0更新日期:2018-08-25 12:44
本发明专利技术属于物流运输技术领域,涉及一种基于Spark技术的物流分拣数据统计方法,首先服务器端远程获取客户端的物流分拣日志文件,然后利用Spark技术,分析物流分拣日志文件中的分拣数据,并进行统计;本发明专利技术的物流分拣数据统计方法可以实现对快递包裹分拣数据信息的统计,且提高了统计效率。

【技术实现步骤摘要】
一种基于Spark技术的物流分拣数据统计方法
本专利技术涉及一种数据统计方法,尤其是一种基于Spark技术的物流分拣数据统计方法,属于物流运输

技术介绍
对于传统的物流自动分拣数据统计方法,由于分拣数据存储在数据表中,所以通常是通过编写SQL语句来进行数据的统计,但是物流自动分拣包含着大量的数据信息,然而数据库查询不能满足海量的数据查询,而且对于海量数据统计来说,通过数据库查询的效率非常低,甚至还会出现查询卡顿的现象。随着数据的膨胀,大数据技术应运而生,传统的大数据统计技术Hadoop的MapReduce技术成本很高,同时编程模型不是很灵活,实现一个并行或者多次迭代的场景的数据统计确实比较麻烦,而且具有高延迟和不可迭代计算的缺点,所以通过综合分析专利技术出一种全新的物流自动分拣数据统计方法至关重要。
技术实现思路
本专利技术的目的是针对现有技术遇到的问题,提供一种基于Spark技术的物流分拣数据统计方法,可以实现对快递包裹分拣数据信息的统计,且提高了统计效率,从不同维度查看分拣包裹数,从而来评估每条分拣线的分拣效率。为实现以上技术目的,本专利技术的技术方案是:一种基于Spark技术的物流分拣数据统计方法,其特征在于,包括如下步骤:步骤一.服务器端远程获取客户端的物流分拣日志文件;步骤二.利用Spark技术,分析物流分拣日志文件中的分拣数据,并进行统计。进一步地,所述步骤一中获取客户端的物流分拣日志文件的方法如下:第一步.在每条物流自动分拣线中,客户端需预先配置分拣线号、上传日志到服务器的时间及需要分析的日志条件;第二步.将客户端当前时间和预先配置上传日志到服务器的时间进行比较,若相等,则执行第三步,否则继续执行第二步;第三步.检索物流分拣日志文件中符合配置条件的日志文件,然后将检索出的日志文件上传到一个新建文件夹中,并对该文件夹进行压缩操作;第四步.客户端将分拣线号、上传日志时间和压缩文件夹上传到服务器端。进一步地,所述客户端通过Internet网络与服务器端信号连接,所述服务器端需要提供一个服务接口给客户端访问,所述客户端调用服务器端的WebService,执行上传日志文件的操作。进一步地,所述服务器端在接收到客户端传来的物流分拣日志文件后,根据分拣线号和日志日期信息在本地新建用于存放日志的文件夹,将接收到的物流分拣日志文件分开存放,用于日志的查看和管理,并对压缩的日志文件进行减压缩操作。进一步地,物流自动分拣数据的统计方法如下:第一步.从服务器端读取物流分拣日志信息;第二步.将物流分拣日志信息上传到分布式存储文件HDFS数据集中,作为原始数据,实现了日志文件的分布存储;第三步.将HDFS数据集中的日志文件输送到Spark计算平台中,由于原始数据不能进行Spark技术的处理,输入过程中需将原始数据转换成初始的弹性分布式数据集RDD;第四步.使用Filter算子过滤掉日志信息中无用的信息,保留对数据统计有用的信息;第五步.将日志信息中过滤出来的有用数据项封装成RDD<Row>;第六步.将RDD<Row>转换成DataSet<Row>,此时便可进行数据统计处理;第七步.数据统计后,将统计结果输出到分布式存储文件HDFS数据集中,数据统计结束。本专利技术物流分拣数据统计方法具有以下优势:1)本专利技术采用Spark技术对物流分拣数据进行统计,采用了分而治之的思想,先将数据进行分布处理,然后各个部分同步进行统计,这样处理数据明显加快了数据的分析,提高了统计效率;2)本专利技术可以实现对快递包裹分拣数据信息的统计,实现从不同维度查看分拣包裹数,从而来评估每条分拣线的分拣效率。附图说明图1为本专利技术获取客户端的物流分拣日志文件的流程图。图2为本专利技术物流自动分拣数据的统计方法流程图。图3为本专利技术与传统统计方法统计效率对比图。具体实施方式下面结合具体附图和实施例对本专利技术作进一步说明。一种基于Spark技术的物流分拣数据统计方法,其特征在于,包括如下步骤:如图1所示,步骤一.服务器端远程获取客户端的物流分拣日志文件;具体获取客户端的物流分拣日志文件的方法如下:第一步.在每条物流自动分拣线中,客户端需预先配置分拣线号、上传日志到服务器的时间及需要分析的日志条件;第二步.将客户端当前时间和预先配置上传日志到服务器的时间进行比较,若相等,则执行第三步,否则继续执行第二步;第三步.检索物流分拣日志文件中符合配置条件的日志文件,然后将检索出的日志文件上传到一个新建文件夹中,并对该文件夹进行压缩操作,这样可以提高传输文件效率;第四步.客户端将分拣线号、上传日志时间和压缩文件夹上传到服务器端;本专利技术实施例中客户端通过Internet网络与服务器端信号连接,所述服务器端需要提供一个服务接口给客户端访问,所述客户端调用服务器端的WebService,执行上传日志文件的操作;所述服务器端在接收到客户端传来的物流分拣日志文件后,根据分拣线号和日志日期信息在本地新建用于存放日志的文件夹,将接收到的物流分拣日志文件分开存放,用于日志的查看和管理,并对压缩的日志文件进行减压缩操作。如图2所示,步骤二.利用Spark技术,分析物流分拣日志文件中的分拣数据,并进行统计。具体的物流自动分拣数据的统计方法如下:第一步.从服务器端读取物流分拣日志信息;第二步.将物流分拣日志信息上传到分布式存储文件HDFS数据集中,作为原始数据,实现了日志文件的分布存储,作为后面进行数据统计的基础;第三步.将HDFS数据集中的日志文件输送到Spark计算平台中,由于原始数据不能进行Spark技术的处理,输入过程中需将原始数据转换成初始的弹性分布式数据集RDD;第四步.由于日志文件包含许多信息,但进行数据统计时并不需要统计所有的信息,使用Filter算子过滤掉日志信息中无用的信息,保留对数据统计有用的信息,这样可以加快数据统计的速度;第五步.将日志信息中过滤出来的有用数据项封装成RDD<Row>;第六步.将RDD<Row>转换成DataSet<Row>,此时便可进行数据统计处理;第七步.数据统计后,将统计结果输出到分布式存储文件HDFS数据集中,数据统计结束;数据统计结束后,将统计结果从HDFS数据集中下载到本地,最后用报表和图形显示统计结果。以一条分拣线为例,通过Spark技术得到的该条分拣线部分统计结果显示如下表所示:DataTimeNormal_Read_NumManual_Read_NumTotal_Num2018/1/18821179677917942018/1/19867359910966452018/1/20824529370918222018/1/21802018727889282018/1/2271436782579261通过上表我们可以清楚的看到分拣线每天分拣的包裹总数、通过正常读码分拣的包裹数和通过人工补码的包裹数。如图3所示,为本专利技术与传统统计方法统计效率对比图,由图可知,当数据量比较少时,传统的数据库查询与Spark技术统计物流数据的效率差距很小,但是随着数据量的增加,采用Spark技术统计数本文档来自技高网...

【技术保护点】
1.一种基于Spark技术的物流分拣数据统计方法,其特征在于,包括如下步骤:步骤一. 服务器端远程获取客户端的物流分拣日志文件;步骤二. 利用Spark技术,分析物流分拣日志文件中的分拣数据,并进行统计。

【技术特征摘要】
1.一种基于Spark技术的物流分拣数据统计方法,其特征在于,包括如下步骤:步骤一.服务器端远程获取客户端的物流分拣日志文件;步骤二.利用Spark技术,分析物流分拣日志文件中的分拣数据,并进行统计。2.根据权利要求1所述的一种基于Spark技术的物流分拣数据统计方法,其特征在于,所述步骤一中获取客户端的物流分拣日志文件的方法如下:第一步.在每条物流自动分拣线中,客户端需预先配置分拣线号、上传日志到服务器的时间及需要分析的日志条件;第二步.将客户端当前时间和预先配置上传日志到服务器的时间进行比较,若相等,则执行第三步,否则继续执行第二步;第三步.检索物流分拣日志文件中符合配置条件的日志文件,然后将检索出的日志文件上传到一个新建文件夹中,并对该文件夹进行压缩操作;第四步.客户端将分拣线号、上传日志时间和压缩文件夹上传到服务器端。3.根据权利要求2所述的一种基于Spark技术的物流分拣数据统计方法,其特征在于,所述客户端通过Internet网络与服务器端信号连接,所述服务器端需要提供一个服务接口给客户端访问,所述客户端调用服务器端的WebService,执行上传日志文件的操作。4.根据权利要求2所述的一种基于Spark技术的物流分拣...

【专利技术属性】
技术研发人员:李倩玉李功燕
申请(专利权)人:中科微至智能制造科技江苏有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1