应用于公铁水联运平台的数据处理方法及系统技术方案

技术编号:36689838 阅读:18 留言:0更新日期:2023-02-27 19:56
本发明专利技术提供了一种应用于公铁水联运平台的数据处理方法及系统。应用于公铁水联运平台的数据处理方法包括:接收公铁水联运平台的运输数据,将运输数据保存为第一源数据;根据运输数据类型按照预设接入规则将第一数据源迁移至HDFS并存储;创建第一外部表关联文件和第二外部关联表文件;将存储在HDFS的第一数据源接入第一外部表关联文件中;将第一外部关联表文件的第一源数据采集至集群服务器,查询第一外部关联表文件的第一源数据,通过Hive清洗、处理、第一源数据后接入第二外部关联文件生成第二源数据,使得公铁水联运平台中接收数据格式统一同时提高了公铁水联运平台的运输数据的查询的速度和效率。的查询的速度和效率。的查询的速度和效率。

【技术实现步骤摘要】
应用于公铁水联运平台的数据处理方法及系统


[0001]本专利技术涉及信息
,具体地,公开了一种应用于公铁水联运平台的数据处理方法及系统。

技术介绍

[0002]于现有技术中,相关运输单位、维护单位在对运输数据进行处理时及公铁水联运平台的管理操作涉及运输数据的种类不同,且往往涉及海量的数据、对运输数据进行查询和访问时,除了需要统一的数据接口,同时还需要对运输数据进行分析、整理,在对公铁水联运运输数据的种类,公铁水联运业务系统的种类进行扩充时,随着数据量、数据类型的不断增加,使得平台维护人员的工作量不断增大,相关人员在执行数据查询的速度和效率也会随着数据量和数据类型的增加不断降低,使得公铁水联运运输领域的运输数据在数据存储的安全性,数据处理的效率方面无法得到保证。
[0003]因此,亟需要一种应用于公铁水联运平台的数据处理方法及系统,提供数据处理的效率和安全性。

技术实现思路

[0004]为了解决现有技术中存在的缺陷,本专利技术提供了一种应用于公铁水联运平台的数据处理方法及系统。
[0005]具体地,本专利技术的第一方面提供了一种应用于公铁水联运平台的数据处理方法,包括如下步骤:
[0006]接收公铁水联运平台的运输数据,将运输数据保存为第一源数据;
[0007]根据运输数据类型按照预设接入规则将第一数据源迁移至HDFS并存储;
[0008]创建第一外部表关联文件和第二外部关联表文件;
[0009]将存储在HDFS的第一数据源接入第一外部表关联文件中;
[0010]将第一外部关联表文件的第一源数据采集至集群服务器,查询第一外部关联表文件的第一源数据,保存查询结果;
[0011]根据查询结果,清洗第一源数据,将清洗完成的第一源数据接入第二外部关联文件,生成第二源数据。
[0012]于上述第一方面的一种可能实现方式中,清洗第一源数据,将清洗完成的第一源数据接入第二外部关联文件,生成第二源数据之后还包括:
[0013]创建业务逻辑表,业务逻辑表的字段至少包括第二源数据对应的特定字段;
[0014]根据预设业务逻辑处理规则获取有效运输数据的访问记录,将访问记录接入业务逻辑表;
[0015]根据预设数据处理规则将业务逻辑表归类输出为包括公铁水联运平台访问排名的若干个数据库表。
[0016]于上述第一方面的一种可能实现方式中,查询第一外部关联表文件的第一源数据
包括:
[0017]解析虚拟数据查询指令,获取实际查询指令,并对实际查询指令对应的查询表进行备份;
[0018]将实际查询指令通过工作分配节点分发至集群服务器的不同节点;
[0019]在节点上执行实际查询指令,查询第一外部关联表文件的第一源数据,获取查询结果;
[0020]其中,实际查询指令通过调用查询表和/或查询表副本执行;
[0021]其中,查询结果反馈至工作分配节点,以更新集群服务器的节点的第一源数据。
[0022]于上述第一方面的一种可能实现方式中,清洗第一源数据,将清洗完成的第一源数据接入第二外部关联文件包括:
[0023]取出第二外部关联表文件;
[0024]将满足预设数据访问需求的第一源数据的数据信息接入第二外部关联文件,生成第二源数据;
[0025]其中,第二源数据包括运输数据中的所有字段及对应的字段值,第二源数据可以对应于若干json对象。
[0026]于上述第一方面的一种可能实现方式中,根据预设业务逻辑处理规则获取有效运输数据的访问记录包括:
[0027]在对运输数据的访问指向相同的主机名及服务器I P的情况下,记录访问时长;
[0028]在访问时长满足预设时长阈值的情况下,标记为有效运输数据的访问记录。
[0029]于上述第一方面的一种可能实现方式中,生成第二源数据包括:
[0030]按照运输数据的接收频率预测数据更新周期,更新集群服务器的分布式节点的元数据信息,元数据信息至少包括数据时段、空间范围、数据规模和数据类型;
[0031]按预设负载均衡规则将元数据信息由分布式节点传送至集群服务器的中心节点的元数据库进行注册和存储,生成第二源数据。
[0032]于上述第一方面的一种可能实现方式中,本申请中的数据处理方法还包括:
[0033]基于集群服务器的分布式节点创建虚拟节点,对虚拟节点进行互相备份,生成镜像备份数据源;
[0034]在虚拟节点出现异常的情况下,切换至镜像备份数据源进行数据访问。
[0035]本申请的第二方面提供了一种应用于公铁水联运平台的数据处理系统,应用于前述第一方面提供的公铁水联运平台的数据处理方法中,数据处理系统包括:
[0036]数据接收模块,用于接收公铁水联运平台的运输数据,将运输数据保存为第一源数据;
[0037]数据迁移模块,用于根据运输数据类型按照预设接入规则将第一数据源迁移至HDFS并存储;
[0038]创建模块,用于创建第一外部表关联文件和第二外部关联表文件;
[0039]数据接入模块,用于将存储在HDFS的第一数据源接入第一外部表关联文件中;
[0040]查询模块,用于将第一外部关联表文件的第一源数据采集至集群服务器,查询第一外部关联表文件的第一源数据,保存查询结果;
[0041]清洗模块,用于根据查询结果清洗第一源数据,将清洗完成的第一源数据接入第
二外部关联文件,生成第二源数据。
[0042]本申请的第三方面提供了一种应用于公铁水联运平台的数据处理设备,包括:
[0043]存储器,用于存储计算机程序;
[0044]处理器,用于执行计算机程序时实现如前述的应用于公铁水联运平台的数据处理方法。
[0045]本申请的第四方面提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述的应用于公铁水联运平台的数据处理方法。
[0046]与现有技术相比,本申请至少具有如下的有益效果:
[0047]1、在对公铁水联运运输数据的种类,公铁水联运业务系统的种类进行扩充,统一的数据接入,使得针对任何输入的数据无需重新编写程序,减少了接入平台维护人员的工作量。
[0048]2、通过接入平台传输的运输数据,基于ETL工具将运输数据抽取到HDFS(HDFS,Hadoop Distributed File System,分布式文件系统)存储;基于H ive清洗、处理和计算原始数据运输数据,将Hive清洗处理后的结果,存入Hbase(Hadoop Database)数据应用中,提高了公铁水联运平台的运输数据的查询的速度和效率。
[0049]3、在分布式节点创建虚拟节点,在虚拟节点存储且经过负载均衡配置的不同数据源,针对不同节点上的虚拟节点进行相互备份,有效减轻了服务器集群之间的交互压力。
附图说明
[0050]通过阅读参照以下附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于公铁水联运平台的数据处理方法,其特征在于,所述的方法包括:接收所述公铁水联运平台的运输数据,将所述运输数据保存为第一源数据;根据运输数据类型按照预设接入规则将所述第一数据源迁移至HDFS并存储;创建第一外部表关联文件和第二外部关联表文件;将存储在HDFS的所述第一数据源接入所述第一外部表关联文件中;将所述第一外部关联表文件的所述第一源数据采集至集群服务器,查询所述第一外部关联表文件的所述第一源数据,保存查询结果;根据所述查询结果,清洗所述第一源数据,将清洗完成的所述第一源数据接入所述第二外部关联文件,生成第二源数据。2.根据权利要求1所述的一种数据处理方法,其特征在于,清洗所述第一源数据,将清洗完成的所述第一源数据接入所述第二外部关联文件,生成第二源数据之后还包括:创建业务逻辑表,所述业务逻辑表的字段至少包括所述第二源数据对应的特定字段;根据预设业务逻辑处理规则获取有效运输数据的访问记录,将所述访问记录接入所述业务逻辑表;根据预设数据处理规则将所述业务逻辑表归类输出为包括所述公铁水联运平台访问排名的若干个数据库表。3.根据权利要求1所述的一种数据处理方法,其特征在于,查询所述第一外部关联表文件的所述第一源数据包括:解析虚拟数据查询指令,获取实际查询指令,并对所述实际查询指令对应的查询表进行备份;将所述实际查询指令通过工作分配节点分发至所述集群服务器的不同节点;在所述节点上执行所述实际查询指令,查询所述第一外部关联表文件的所述第一源数据,获取查询结果;其中,所述实际查询指令通过调用查询表和/或查询表副本执行;其中,所述查询结果反馈至所述工作分配节点,以更新所述集群服务器的节点的所述第一源数据。4.根据权利要求1所述的一种数据处理方法,其特征在于,清洗所述第一源数据,将清洗完成的所述第一源数据接入所述第二外部关联文件包括:取出所述第二外部关联表文件;将满足所述预设数据访问需求的所述第一源数据的数据信息接入所述第二外部关联文件,生成第二源数据;其中,所述第二源数据包括所述运输数据中的所有字段及对应的字段值,所述第二源数据对应于若干json对象。5.根据权利要求2所述的一种数据处理方法,其特征在于,根据预设业务...

【专利技术属性】
技术研发人员:吴俊峰焦亚敏田歆
申请(专利权)人:上海文景信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1