一种数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号:23161613 阅读:19 留言:0更新日期:2020-01-21 21:58
本申请实施例中提供了一种数据处理方法、装置、设备和存储介质,包括:获取待处理的物流数据;将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。采用本申请中的方案,能够解决大数据中的异构和脏数据问题,为后续的大数据分析挖掘提供高质量的数据。

A data processing method, device, equipment and storage medium

【技术实现步骤摘要】
一种数据处理方法、装置、设备和存储介质
本申请涉及信息处理技术,具体地,涉及一种数据处理方法、装置、设备和存储介质。
技术介绍
随着移动互联网和信息技术的高速发展,大数据已经得到广泛的重视。通过对大数据的分析,可以获得很多有价值的信息。物流数据亦然。目前很多中小物流公司采用手工台账方式或者是自身的ERP(EnterpriseResourcePlanning,企业资源计划)系统来记录自身的物流数据,使得大部分物流公司的物流数据,其数据结构都是不相同的,并且受到数据记录和管理过程中的各种影响,每个物流公司的物流数据都不可避免的存在各种脏数据,即存在质量问题,例如数据丢失、数据重复、数据不符合标准、数据不完整、数据过期等等。上述物流数据中的异构和脏数据问题,使得很多物流数据无法正常使用,不利于后续的大数据分析挖掘。
技术实现思路
本申请实施例中提供了一种数据处理方法、装置、设备和存储介质,以解决上述技术问题。根据本申请实施例的第一个方面,提供了一种数据处理方法,包括:获取待处理的物流数据;将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。根据本申请实施例的第二个方面,提供了一种数据处理装置,包括:获取单元,用于获取待处理的物流数据;原始表生成单元,用于将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;第一清洗单元,用于对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;第二清洗单元,用于对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。。根据本申请实施例的第三个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。根据本申请实施例的第四个方面,提供了一种电子设备,其特征在于,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如上所述的方法。采用本申请实施例中提供的数据处理方案,获取待处理的物流数据后,将物流数据按照新的表结构进行存储,生成原始表,其中新的表结构中包括多个表征物流属性的字段,然后对原始表存储的物流数据中各字段下的数据执行第一清洗操作,得到第一中间表,再对第一中间表存储的物流数据中指定字段下的数据进行第二清洗操作,从而得到最终表,其中第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作和多余数据清除操作,第二清洗操作包括异常数据纠正操作。本申请实施例中的方案不仅能够将异构的物流数据整合到同构的数据表中,还能对物流数据中的脏数据进行有效清洗和修正,为后续的大数据分析挖掘提供高质量的数据。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种数据处理方法的流程示意图;图2为本申请实施例提供的一种数据处理装置的结构示意图;图3为本申请实施例提供的一种电子设备的结构示意图。具体实施方式在实现本申请的过程中,专利技术人发现:现有的很多中小物流公司采用手工台账方式或者是自身的ERP系统来记录自身的物流数据,使得大部分物流公司的物流数据,其数据结构都是不相同的,并且受到数据记录和管理过程中的各种影响,每个物流公司的物流数据都不可避免的存在各种脏数据,即存在质量问题,例如数据丢失、数据重复、数据不符合标准、数据不完整、数据过期等等。上述物流数据中的异构和脏数据问题,使得很多物流数据无法正常使用,不利于后续的大数据分析挖掘。针对上述问题,本申请实施例中提供了一种数据处理方案,首先将获取的物流数据按照新的表结构进行存储,生成原始表,然后按照预先针对每个字段设置的清洗规则,对原始表中的每个字段的数据执行清洗操作,得到第一中间表,再对第一中间表中预设的目标字段的数据进行异常值检测,当检测出目标字段的数据存在异常值时,对异常值进行修正,从而得到最终表。本申请实施例中的方案不仅能够将异构的物流数据整合到同构的数据表中,还能对物流数据中的脏数据进行有效清洗和修正,为后续的大数据分析挖掘提供高质量的数据。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。如图1所示,为本申请实施例提供的一种数据处理方法的流程示意图。该方法包括:步骤11,获取待处理的物流数据。本申请实施例中,待处理的物流数据可以是来自不同数据源的异构数据,并且分别存储在包含不同原始字段的数据表中。比如来自数据源A的物流数据存储在数据表a中,其中包含原始字段x1、x2和x3,来自数据源B的物流数据存储在数据表b中,其中包含原始字段x1、x2和x4。步骤12,将待处理的物流数据按照新的表结构进行存储,生成原始表,新的表结构包括多个表征物流属性的字段。如果获取的待处理的物流数据的数据结构不同,那么后续在大数据分析挖掘时便无法使用,因此本申请实施例为了解决该异构问题,在获取到待处理的物流数据之后,首先将其按照新的表结构进行存储,生成原始表,其中,新的表结构中包含多个表征物流属性的字段,该字段可以与物流数据中的原始字段相同,也可以不同,本申请实施例对此不进行限制。具体的,将物流数据按照新的表结构进行存储时,可以将物流数据中原始字段和新的表结构中的字段进行匹配,当物流数据中的原始字段与新的表结构中的任一字段匹配成功时,则将该原始字段下的数据写入到对应的字段下。如果新的表结构中的字段没有与物流数据中的任一原始字段匹配成功,则该条物流数据中未与物流数据中的任一原始字段匹配成功的字段下的数据为空。本申请实施例中,新的表结构中包含的表征物流属性的字段可以但不限于包括以下一个或多个:公司名称、日期、车型、车长、车牌号、司机信息、发车地、到达地、线路、线路类型、距本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取待处理的物流数据;/n将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;/n对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;/n对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取待处理的物流数据;
将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;
对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;
对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。


2.根据权利要求1所述的方法,其特征在于,对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表,包括:
对所述第一中间表存储的所述物流数据中指定字段下的数据进行异常检测;
当检测出所述指定字段下的数据异常时,对检测出的异常数据进行修正,得到所述最终表。


3.根据权利要求2所述的方法,其特征在于,对所述第一中间表存储的所述物流数据中指定字段下的数据进行异常检测,包括:
根据所述第一中间表中所述指定字段下的全部数据,确定所述指定字段对应的中位数;
根据所述指定字段对应的中位数,分别判断所述指定字段下的每个数据是否异常。


4.根据权利要求3所述的方法,其特征在于,根据所述指定字段对应的中位数,分别判断所述指定字段下的每个数据是否异常,包括:
针对所述指定字段下的每个数据分别执行如下操作:
根据所述指定字段下的当前数据所属的物流数据,对所述中位数进行调整,得到调整后的中位数;
将所述指定字段下的当前数据和所述调整后的中位数进行比较,若所述指定字段下的当前数据超过所述调整后的中位数的预设倍数,则所述指定字段下的当前数据异常。


5.根据权利要求2所述的方法,其特征在于,当检测出所述指定字段下的数据异常时,对检测出的异常数据进行修正,得到所述最终表,包括:
按照如下公式计算所述异常数据的修正值,并将所述异常数据替换为所述修正值,得到所述最终表:






其中,所述C为所述异常数据的修正值,所述M为所述指定字段对应的中位数,所述σ为所述指定字段下的全部数据的标准差,所述N为所述指定字段下的数据的总条数,所述xi为所述指定字段下的第i条数据值,所述r为所述指定字段下的全部数据的平均值。


6.根据权利要求1所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:龚伟松高敏张慧霞韦松松徐玉莹孙国川
申请(专利权)人:上海凯京信达科技集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1