数据处理方法及系统、电子设备及存储介质技术方案

技术编号:26762355 阅读:18 留言:0更新日期:2020-12-18 23:10
本发明专利技术公开了一种数据处理方法及系统、电子设备及存储介质,数据处理方法包括:获取由多条数据记录构成的第一样本数据,依次检测每一条数据记录是否符合规范条件,若否,则执行第一数据清洗操作,第一数据清洗操作包括将不符合所述地址语义规范条件的记录修改为符合所述语义规范条件或删除不符合所述语义规范条件的记录。本发明专利技术能够对样本数据进行清洗处理,使得样本数据更加规范,提升了样本数据的可用性,也提升了基于样本数据训练出的分类器的模型精度和泛化能力。

【技术实现步骤摘要】
数据处理方法及系统、电子设备及存储介质
本专利技术涉及一种数据清洗技术,特别涉及一种数据处理方法及系统、电子设备及存储介质。
技术介绍
目前,主流电商平台均上线了智能分单系统,通过对物流快递地址进行分类,来自动生成分拣码,将用户收件地址自动映射到末端派件网点或派件员,来辅助快递企业进行分拣决策。现有技术中都是通过历史快递地址、派件网点等数据训练得到相应的地址分类器,但是现有技术中由于地址不规范或数据处理不规范导致历史样本数据可用性并不高,从而会影响到地址分类器的训练精度以及泛化能力。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中历史样本数据可用性并不高,从而会影响到地址分类器的训练精度以及泛化能力的缺陷,提供一种数据处理方法及系统、电子设备及存储介质。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供了一种数据处理方法,包括以下步骤:获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;所述第二地址为用户直接输入的地址;设置至少一个地址语义规范条件,依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。较佳地,所述地址语义规范条件包括:所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;所述第一数据清洗操作具体为:对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。较佳地,所述物流记录还包括派件网点;所述地址语义规范条件还包括:所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;所述第一数据清洗操作具体为:删除该条物流记录。较佳地,所述数据处理方法还包括以下步骤:获取经过所述第一数据清洗操作所形成的第二样本数据;遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则执行第二数据清洗操作;所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。较佳地,所述检测每一个相同的第二地址是否存在多个对应的派件网点的步骤之前还包括:按照时间段的划分对所述第二样本数据中的物流记录进行分组;所述检测每一条相同的第二地址是否存在多个对应的派件网点还包括:在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。较佳地,判断所述派件单量是否满足要求的具体方法为:基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。较佳地,所述数据处理方法还包括以下步骤:获取经过所述第二数据清洗操作所形成的第三样本数据;提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;对于每一组物流记录,检测其是否包含多个不同的派件网点;若是,则执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。较佳地,所述第一地址、所述第二地址以及所述派件网点所对应的地址均为进行标准化解析后的地址。本专利技术还提供了一种数据处理系统,包括:第一获取模块,用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;所述第二地址为用户直接输入的地址;条件设置模块,用于设置至少一个地址语义规范条件;第一检测模块,用于依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则调用第一清洗模块;所述第一清洗模块用于执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。较佳地,所述地址语义规范条件包括:所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;所述第一清洗模块执行的第一数据清洗操作具体为:对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。较佳地,所述物流记录还包括派件网点;所述地址语义规范条件还包括:所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;所述第一清洗模块执行的第一数据清洗操作具体为:删除该条物流记录。较佳地,所述数据处理系统还包括:第二获取模块,用于获取经过所述第一数据清洗操作所形成的第二样本数据;第二检测模块,用于遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则调用第二清洗模块;所述第二清洗模块用于执行第二数据清洗操作;所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。较佳地,所述数据处理系统还包括:第一分组模块,用于按照时间段的划分对所述第二样本数据中的物流记录进行分组;所述第二检测模块具体用于在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。较佳地,所述第二清洗模块具体用于:基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;并将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。较佳地,所述数据处理系统还包括:第三获取模块,用于获取经过所述第二数据清洗操作所形成的第三样本数据;第二分组模块,用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;第三检测模块,用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第三清洗模块;所述第三清洗模块用于执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括以下步骤:/n获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;/n所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;/n所述第二地址为用户直接输入的地址;/n设置至少一个地址语义规范条件,依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
设置至少一个地址语义规范条件,依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。


2.如权利要求1所述的数据处理方法,其特征在于,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第一数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。


3.如权利要求1或2所述的数据处理方法,其特征在于,
所述物流记录还包括派件网点;
所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第一数据清洗操作具体为:删除该条物流记录。


4.如权利要求3所述的数据处理方法,其特征在于,所述数据处理方法还包括以下步骤:获取经过所述第一数据清洗操作所形成的第二样本数据;
遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。


5.如权利要求4所述的数据处理方法,其特征在于,所述检测每一个相同的第二地址是否存在多个对应的派件网点的步骤之前还包括:
按照时间段的划分对所述第二样本数据中的物流记录进行分组;
所述检测每一条相同的第二地址是否存在多个对应的派件网点还包括:
在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。


6.如权利要求4所述的数据处理方法,其特征在于,
判断所述派件单量是否满足要求的具体方法为:
基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;
将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。


7.如权利要求4-6中任意一项所述的数据处理方法,其特征在于,所述数据处理方法还包括以下步骤:
获取经过所述第二数据清洗操作所形成的第三样本数据;
提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
对于每一组物流记录,检测其是否包含多个不同的派件网点;
若是,则执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。


8.如权利要求1-7中任意一项所述的数据处理方法,其特征在于,所述第一地址、所述第二地址以及所述派件网点所对应的地址均为进行标准化解析后的地址。


9.一种数据处理系统,其特征在于,包括:第一获取模块,用于获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含第一地址、第二地址中的至少一个;
所述第一地址为基于用户选择操作而生成的地址或系统自动生成的地址;
所述第二地址为用户直接输入的地址;
条件设置模块,用于设置至少一个地址语义规范条件;
第一检测模块,用于依次检测同时包含有第一地址和第二地址的每一条物流记录是否符合所述地址语义规范条件,若否,则调用第一清洗模块;
所述第一清洗模块用于执行第一数据清洗操作,所述第一数据清洗操作包括将不符合所述地址语义规范条件的物流记录修改为符合所述地址语义规范条件或删除不符合所述地址语义规范条件的物流记录。


10.如权利要求9所述的数据处理系统,其特征在于,所述地址语义规范条件包括:
所述第一地址和所述第二地址中存在记录的同一个级别的行政区划为同一个;
所述第一清洗模块执行的第一数据清洗操作具体为:
对于每一个行政区划级别,依次判断第二地址中当前级别的行政区划是否隶属于上一级别的行政区划,若是,则将该条物流记录的第一地址的当前级别的行政区划修改为第二地址中当前级别的行政区划;若否,则删除该条物流记录。


11.如权利要求9或10所述的数据处理系统,其特征在于,所述物流记录还包括派件网点;
所述地址语义规范条件还包括:
所述第二地址和所述派件网点所隶属的地址中的同一个级别行政区划为同一个;
所述第一清洗模块执行的第一数据清洗操作具体为:删除该条物流记录。


12.如权利要求11所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第二获取模块,用于获取经过所述第一数据清洗操作所形成的第二样本数据;
第二检测模块,用于遍历所述第二样本数据,检测每一个相同的第二地址是否存在多个对应的派件网点,若存在,则调用第二清洗模块;
所述第二清洗模块用于执行第二数据清洗操作;
所述第二数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。


13.如权利要求12所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第一分组模块,用于按照时间段的划分对所述第二样本数据中的物流记录进行分组;
所述第二检测模块具体用于在同一个组内,检测每一个相同的第二地址是否存在多个对应的派件网点。


14.如权利要求12所述的数据处理系统,其特征在于,所述第二清洗模块具体用于:基于正态分布,计算当前第二地址对应的派件网点的派件单量的均值μ和标准差σ;并将派件单量位于(μ-3σ,μ+3σ)之外的派件网点确定为不满足要求的派件网点。


15.如权利要求12-14中任意一项所述的数据处理系统,其特征在于,所述数据处理系统还包括:
第三获取模块,用于获取经过所述第二数据清洗操作所形成的第三样本数据;
第二分组模块,用于提取每一条物流记录的地址特征,并将拥有相同地址特征的物流记录划分为同一组;
第三检测模块,用于对于每一组物流记录,检测其是否包含多个不同的派件网点,若是,则调用第三清洗模块;
所述第三清洗模块用于执行第三数据清洗操作,所述第三数据清洗操作包括:基于物流的签收日期或配送日期对物流记录进行排序,并分别记录该日期下的每一条物流记录的第二地址、地址特征和派件网点;将出现频率最高的派件网点定义为该地址特征的关联派件网点,并将该地址特征下的派件网点记录均修改为该关联派件网点。


16.如权利要求9-15中任意一项所述的数据处理系统,其特征在于,所述第一地址、所述第二地址以及所述派件网点所对应的地址均为进行标准化解析后的地址。


17.一种数据处理方法,其特征在于,包括以下步骤:
获取由多条物流记录构成的第一样本数据,所述物流记录的每一条包含用户地址和派件网点;
遍历所述第一样本数据,检测每一个相同的用户地址是否存在多个对应的派件网点,若存在,则执行第一数据清洗操作;
所述第一数据清洗操作具体为将派件单量不满足要求的派件网点所对应的物流记录删除。


18.如权利要求17所述的数据处理方法,其特征在于,所述检测每一个相同的用户地址是否存在多个对应的派件网点的步骤之前还包括:
按照时间段的划分对所述第一样本数据中的物流记录进行分组;
所述检测每一条相同的用户地址是否存在多个对应的派件网点还包括:
在同一个组内,检测每一个相同的用户地址是否存在多个对应的派件网点。


19.如权利要求17所述的数据处理方法,其特征在于,
判断所述派件...

【专利技术属性】
技术研发人员:元野林兵郑德鹏韦家强李先涛
申请(专利权)人:上海寻梦信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1