一种海关数据清洗合并的方法、装置、设备及介质制造方法及图纸

技术编号:23343312 阅读:33 留言:0更新日期:2020-02-15 03:52
本发明专利技术公开了一种海关数据清洗合并的方法、装置、设备及介质,所述方法包括从原始海关数据中提取一条有效的提单数据;对提单数据中的公司名信息进行提取;判断提取的公司名信息是否为有效的公司名信息;对公司名信息中的区域信息根据预设规则进行匹配,若匹配成功,则对公司名信息中的区域信息进行删除;对公司名信息中的后缀信息根据预设规则进行匹配,若匹配成功,则将所述后缀信息转换为标准格式后缀信息;判断数据库中是否有可以与步骤五完成后的提单数据进行合并的提单数据,若有,则进行数据合并。本发明专利技术其通过从原始海关数据中提取有效的提单数据进行清洗、处理和合并,生成格式统一、信息集中的提单数据,便于用户找出有用的信息。

A method, device, equipment and medium for cleaning and merging customs data

【技术实现步骤摘要】
一种海关数据清洗合并的方法、装置、设备及介质
本专利技术属于数据处理
,尤其涉及一种海关数据清洗合并的方法、装置、设备及介质。
技术介绍
海关数据就是海关履行进出口贸易统计职能中产生的各项进出口统计数据。通过对这些数据内容的深度挖掘,可以帮助企业及时、全面、可观的掌握市场动向,分析海外市场商业情况。但原始的海关数据存在以下问题:一是原始的海关数据数量大,导致用户查询有用信息难度高;二是海关数据中的贸易国多,导致数据繁杂;三是海关数据中垃圾信息多。靠用户自身整理处理这些原始海关数据,找出有用的信息难度很高。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种海关数据清洗合并的策略,其通过从原始海关数据中提取有效的提单数据进行清洗、处理和合并,生成格式统一、信息集中的提单数据,便于用户找出有用的信息。为解决上述技术问题,本专利技术第一方面公开了一种海关数据清洗合并的方法,包括以下步骤:步骤一、从原始海关数据中提取一条有效的提单数据;步骤二、对提单数据中的公司名信息进行提取;步骤三、判断提取的公司名信息是否为有效的公司名信息;若是,则进入步骤四,若否,进入步骤七;步骤四、对公司名信息中的区域信息根据预设规则进行匹配,若匹配成功,则对公司名信息中的区域信息进行删除,然后进入步骤五,若匹配失败,则直接进入步骤五;步骤五、对公司名信息中的后缀信息根据预设规则进行匹配,若匹配成功,则将所述后缀信息转换为标准格式后缀信息,然后进入步骤六,若匹配失败,则直接进入步骤六;步骤六、判断数据库中是否有可以与步骤五完成后的提单数据进行合并的提单数据,若有,则进行数据合并;步骤七、从原始海关数据中提取下一条有效的提单数据,进入步骤二。上述一种海关数据清洗合并的方法,所述步骤六中判断数据库中是否有可以与步骤五完成后的提单数据进行合并的提单数据时包括:步骤601、将步骤五完成后的提单数据直接存储至数据库中;步骤602、对数据库中的所有提单数据按公司名信息进行排序;步骤603、排序完成后,提取与最新存储的提单数据相邻的提单数据中的公司名信息,提取最新存储的提单数据中的公司名信息;步骤604、对最新存储的提单数据中的公司名信息与所述相邻的提单数据中的公司名信息进行相似度计算;若相似度大于阈值,则将最新存储的提单数据与所述相邻的提单数据进行数据合并。上述一种海关数据清洗合并的方法,所述步骤604中相似度计算是通过LevensteinDistance算法、NGramDistance算法或JaroWinklerDistance算法实现。上述一种海关数据清洗合并的方法,所述步骤四中对公司名信息中的区域信息根据预设规则进行匹配,是通过正则匹配实现。本专利技术第二方面公开了一种海关数据清洗合并的装置,包括提单数据提取模块、公司名信息提取模块、第一判断模块、第一匹配模块、第二匹配模块和第二判断模块;所述提单数据提取模块,用于从原始海关数据中提取有效的提单数据;所述公司名信息提取模块,用于对提单数据提取模块提取的提单数据中的公司名信息进行提取;所述第一判断模块,用于判断公司名信息提取模块提取的公司名信息是否为有效的公司名信息,若是,则触发第一匹配模块运行和第二匹配模块运行;所述第一匹配模块,用于对公司名信息中的区域信息根据预设规则进行匹配,若匹配成功,则对公司名信息中的区域信息进行删除;所述第二匹配模块,用于对公司名信息中的后缀信息根据预设规则进行匹配,若匹配成功,则将所述后缀信息转换为标准格式后缀信息;所述第二判断模块,用于判断数据库中是否有可以与经过第一匹配模块和第二匹配模块处理完成后的提单数据进行合并的提单数据,若有,则进行数据合并,合并后的提单数据存储至数据库中。上述一种海关数据清洗合并的装置,所述第二判断模块包括:数据写入单元、数据排序单元、公司名信息提取单元、相似度计算单元和数据合并单元;所述数据写入单元,用于将经过第一匹配模块和第二匹配模块处理完成后的提单数据存储至数据库中;所述数据排序单元,用于对数据库中的所有提单数据按公司名信息进行排序;所述公司名信息提取单元,用于在排序完成后,提取与最新存储的提单数据相邻的提单数据中的公司名信息,提取最新存储的提单数据中的公司名信息;所述相似度计算单元,用于对最新存储的提单数据中的公司名信息与所述相邻的提单数据中的公司名信息进行相似度计算;所述数据合并单元,用于当相似度计算单元计算出的相似度大于阈值时,将最新存储的提单数据与所述相邻的提单数据进行数据合并。上述一种海关数据清洗合并的装置,相似度计算单元中的相似度计算算法为LevensteinDistance算法、NGramDistance算法或JaroWinklerDistance算法。上述一种海关数据清洗合并的装置,所述第一匹配模块对公司名信息中的区域信息根据预设规则进行匹配,是通过正则匹配实现。本专利技术第三方面公开了一种海关数据清洗合并的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本专利技术第一方面所述方法的步骤。本专利技术第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术第一方面公开了所述方法的步骤。本专利技术与现有技术相比具有以下优点:1.本专利技术其通过从原始海关数据中提取有效的提单数据以及对提单数据中的公司名信息进行判断,清洗掉无效公司名信息的提单数据,减少数据量。2.本专利技术对提单数据公司名信息进行处理,删除掉公司名信息中的区域信息,以及将公司名信息中的后缀信息转换为标准格式的后缀信息,使公司名信息具有统一的格式,并且凸显出公司名中的商号,便于后续数据合并时相似度计算的准确性。3.本专利技术利用公司名信息的相似度来判断提单数据是否可以合并,使具有相同商号的不同区域的公司的提单数据能够合并,减少提单的数量,使一份提单可以反映更多的海关贸易信息。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术数据清洗合并的方法流程图。图2为本专利技术数据清洗合并方法中步骤六的方法流程图。图3为本专利技术数据清洗合并装置的模块框图。图4为本专利技术数据清洗合并装置中第二判断模块的单元框图。具体实施方式如图1所示,一种海关数据清洗合并的方法,包括以下步骤:步骤一、从原始海关数据中提取一条有效的提单数据;利用预置的数据字段对照表从原始海关数据中提取出有效数据形成整个有效的提单数据,如:根据importer字段就可以找到采购商,exporter字段就可以找到供应商。这样能够使不管从哪个国家海关的原始海关数据进行数据提本文档来自技高网...

【技术保护点】
1.一种海关数据清洗合并的方法,其特征在于,包括以下步骤:/n步骤一、从原始海关数据中提取一条有效的提单数据;/n步骤二、对提单数据中的公司名信息进行提取;/n步骤三、判断提取的公司名信息是否为有效的公司名信息;若是,则进入步骤四,若否,进入步骤七;/n步骤四、对公司名信息中的区域信息根据预设规则进行匹配,若匹配成功,则对公司名信息中的区域信息进行删除,然后进入步骤五,若匹配失败,则直接进入步骤五;/n步骤五、对公司名信息中的后缀信息根据预设规则进行匹配,若匹配成功,则将所述后缀信息转换为标准格式后缀信息,然后进入步骤六,若匹配失败,则直接进入步骤六;/n步骤六、判断数据库中是否有可以与步骤五完成后的提单数据进行合并的提单数据,若有,则进行数据合并;/n步骤七、从原始海关数据中提取下一条有效的提单数据,进入步骤二。/n

【技术特征摘要】
1.一种海关数据清洗合并的方法,其特征在于,包括以下步骤:
步骤一、从原始海关数据中提取一条有效的提单数据;
步骤二、对提单数据中的公司名信息进行提取;
步骤三、判断提取的公司名信息是否为有效的公司名信息;若是,则进入步骤四,若否,进入步骤七;
步骤四、对公司名信息中的区域信息根据预设规则进行匹配,若匹配成功,则对公司名信息中的区域信息进行删除,然后进入步骤五,若匹配失败,则直接进入步骤五;
步骤五、对公司名信息中的后缀信息根据预设规则进行匹配,若匹配成功,则将所述后缀信息转换为标准格式后缀信息,然后进入步骤六,若匹配失败,则直接进入步骤六;
步骤六、判断数据库中是否有可以与步骤五完成后的提单数据进行合并的提单数据,若有,则进行数据合并;
步骤七、从原始海关数据中提取下一条有效的提单数据,进入步骤二。


2.按照权利要求1所述的一种海关数据清洗合并的方法,其特征在于,所述步骤六中判断数据库中是否有可以与步骤五完成后的提单数据进行合并的提单数据时包括:
步骤601、将步骤五完成后的提单数据直接存储至数据库中;
步骤602、对数据库中的所有提单数据按公司名信息进行排序;
步骤603、排序完成后,提取与最新存储的提单数据相邻的提单数据中的公司名信息,提取最新存储的提单数据中的公司名信息;
步骤604、对最新存储的提单数据中的公司名信息与所述相邻的提单数据中的公司名信息进行相似度计算;若相似度大于阈值,则将最新存储的提单数据与所述相邻的提单数据进行数据合并。


3.按照权利要求2所述的一种海关数据清洗合并的方法,其特征在于,所述步骤604中相似度计算是通过LevensteinDistance算法、NGramDistance算法或JaroWinklerDistance算法实现。


4.按照权利要求1、2或3所述的一种海关数据清洗合并的方法,其特征在于,所述步骤四中对公司名信息中的区域信息根据预设规则进行匹配,是通过正则匹配实现。


5.一种海关数据清洗合并的装置,其特征在于,包括提单数据提取模块、公司名信息提取模块、第一判断模块、第一匹配模块、第二匹配模块和第二判断模块;
所述提单数据提取模块,用于从原始海关数据中提取有效的提单数据;
所述公司名信息提取模块,用于对提单数据提取模块提取的提单数据中的公司名信息进行提取;

【专利技术属性】
技术研发人员:李超
申请(专利权)人:上海义缘网络科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1