一种提高相似物流单号识别精度的算法和物流查询系统技术方案

技术编号:38657342 阅读:7 留言:0更新日期:2023-09-02 22:42
本申请公开了一种提高相似物流单号识别精度的算法,包括获取物流单号,根据物流单号的长度从规则库中筛选相同物流单号长度的物流渠道,计算物流渠道的数量N;当N=1时,将唯一的物流渠道作为物流单号的识别结果;当N≥2时,进行物流单号的匹配精度计算,匹配精度计算包括:根据各物流渠道的号段信息拆分物流单号正则表达式中的常数部分和变数部分,计算各物流渠道对应正则表达式中常数部分的长度在整个规则中匹配到的长度比例并将其作为匹配精度值;将匹配精度值最高的物流渠道作为物流单号的识别结果。该算法和相应的物流查询系统提高了物流单号的自动识别能力和查询效率,具有查询精准、快速、高效和便捷的优点。高效和便捷的优点。高效和便捷的优点。

【技术实现步骤摘要】
一种提高相似物流单号识别精度的算法和物流查询系统


[0001]本申请涉及计算机
,特别涉及一种提高相似物流单号识别精度的算法和物流查询系统,以及一种通过邮件查询物流单号的方法和系统。

技术介绍

[0002]目前的全球综合物流查询平台(也称“物流查询系统”),由于物流行业没有约束性的标准,每家物流渠道(也称“物流商”)都有自己的物流单号自动生成方式和规则。没有统一约束和规范的物流单号,对于综合物流查询系统而言,如果支持的物流渠道越多,相似物流单号(指物流单号规则一样或者非常相似,肉眼不易分辨的物流单号)在查询时发生冲突的概率就会越高,从而导致物流渠道不能被自动识别,使得用户查询物流单号的效率降低,影响用户对物流查询系统的体验效果。
[0003]目前通常的做法是根据不同的物流渠道配置物流单号的正则匹配规则,然后通过规则来区分一部分物流单号;但是对于规则非常接近的相似物流单号,难以在正则匹配基础上进一步的提高物流渠道的识别精度,即便在正则匹配基础上实现了物流渠道的识别,其规则配置会非常复杂,不便于维护和使用。在物流查询系统的相关技术中,对于不能识别的相似物流单号,通常是由用户手动指定相应的物流渠道,这种操作方式会耗费用户很多时间,对于采用其他语言的跨国物流渠道而言,也给用户的物流单号查询工作带来很大困扰和麻烦。
[0004]此外,对于物流单号查询频率非常高的电商领域,买家在各电商平台购买的商品发货后,一般都会收到卖家的发货邮件;发货邮件主要用于通知买家订单商品已经发货,同时提供发货的物流单号或者物流单号的查询链接。
[0005]如果买家想要对物流单号进行持续的查询追踪,目前的普遍做法是:买家收到发货邮件后,将发货邮件中的物流单号复制出来,再粘贴到物流查询平台上进行查询追踪。对于购买商品频率很高的买家(比如专职的采购人员),这种物流单号查询方式的查询效率很低,费时费力;而且如果物流过程发生异常,买家无法及时了解物流过程并介入干预处理,可能会造成不必要的损失。
[0006]涉及本申请的其他技术问题,在后文进一步阐述。上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容全部都是现有技术。

技术实现思路

[0007]本申请的主要目的是提供一种提高相似物流单号识别精度的算法和物流查询系统,旨在使物流查询系统在查询相似物流单号时提高其对物流渠道的识别精度,提高对国际物流单号的查询效率。此外,本申请还提供一种通过邮件查询物流单号的方法和对应的物流查询系统,通过邮件转发并分析识别邮件内容来实现自动查询用户(即买家)邮件中物流单号的物流轨迹;也即:物流查询系统自动分析识别用户(买家)邮件中的物流单号,根据所得物流单号进一步查询追踪物流轨迹,并将物流查询结果通过邮件反馈给买家,实现买
家自动获取物流单号查询结果的目的。
[0008]本申请的一种提高相似物流单号识别精度的算法,用于在物流查询系统中识别物流渠道,其特征在于,所述方法包括以下步骤:步骤S1:获取物流单号,计算所述物流单号的长度,根据所述物流单号的长度从规则库中筛选具有相同物流单号长度的物流渠道,记录具有相同长度的全部所述物流渠道并计算所述物流渠道的数量N;步骤S2:根据N值进行所述物流单号的初步识别,所述物流单号的初步识别包括:当N=1时,将所述唯一的物流渠道作为所述物流单号的识别结果;当N≥2时,执行步骤S3;步骤S3:进行所述物流单号的匹配精度计算,所述匹配精度计算包括步骤S31

S34:步骤S31:根据各物流渠道的号段信息拆分所述物流单号正则表达式中的常数部分和变数部分,所述物流单号中与所述号段信息的内容相同且位置相同的部分作为所述正则表达式的常数部分,其余部分作为所述正则表达式的变数部分;步骤S32:计算各物流渠道对应正则表达式中所述常数部分的长度在整个规则中匹配到的长度比例,所述长度比例作为所述物流单号在相应物流渠道规则下的匹配精度值;步骤S33:将各物流渠道规则的匹配精度值按大小进行排序;步骤S34:取出匹配精度值最高的规则所对应的物流渠道;步骤S4:将匹配精度值最高的物流渠道作为所述物流单号的识别结果。
[0009]本申请的其他特征和技术效果在说明书的后面部分进行阐述说明。本申请的技术问题解决思路和相关产品设计方案为:比如对于物流单号具有相似规则的两个物流渠道,物流渠道A的物流单号为226590455432,物流渠道B的物流单号为123456784312,两者都是12位的纯数字物流单号,是相似物流单号。通常的做法是在配置规则的时候,按照正则表达式分别配置为d\{12}和d\{12},这样会造成没法区分2个物流单号的归属,也就没法根据优先级选出一个可能性更大的物流渠道以进行识别。这种情况下,通常的物流查询系统会提请用户手动指定相应的物流渠道,以实现物流单号和物流渠道的匹配。
[0010]申请人通过对大量相似物流单号和物流渠道进行分析,发现很多物流渠道会有号段的概念,比如物流渠道A的物流单号中第3

6位具有固定的字符串6590,也即物流渠道A具有号段,且号段内容为6590字符,号段的位置为第3

6位,号段长度为4位。因此,可以相应的配置物流渠道A的正则表达式为\d{2}(6590)\d{6}。物流渠道B的物流单号中没有固定的字符串,物流渠道B的正则表达式仍然为\d{12};这样在匹配的时候仍然会匹配到2个物流渠道,无法进一步的区分。为此,申请人提出了对正则表达式的匹配精度进行计算的概念,采用“规则+算法”的方式来进一步识别物流单号的物流渠道。
[0011]在对正则表达式的匹配精度进行计算时,根据物流渠道的号段拆分物流单号正则表达式中的常数部分和变数部分,号段作为常数部分,以此计算物流渠道对应正则表达式中常数部分的长度在整个规则中匹配到的长度比例,将该长度比例作为物流单号在相应物流渠道规则下的匹配精度值。如果查询系统中只有物流渠道A和物流渠道B两个12位的物流渠道,在查询物流单号226590455432时:对于物流渠道A,其号段信息为第3

6位的6590,长
度为4位,物流单号长度为12位,其匹配精度值为4位/12位=33.3%;对于物流渠道B,由于其没有固定的字符串,常数部分的长度为0位,其匹配精度值为0位/12位=0.0%;根据新的规则,选择匹配精度值最高的物流渠道作为自动识别的物流渠道,因此物流渠道A做该物流单号的识别结果。
[0012]这种物流单号的匹配精度计算,采用规则和算法相结合的方式,避免了采用复杂的规则来识别相似物流单号的归属,便于软件编程和维护;在查询时遇到相似的物流单号时,可以不需要用户手动指定物流渠道,提高了物流单号的自动识别能力和对国际物流单号的查询效率,识别精度高,具有查询精准、快速、高效和便捷等优点。而且,相比于普通AI(人工智能)学习系统,其计算更有针对性,计算速度更快,算法语言更简单,对应的软件编程和维护成本低。
[0013]相应的,本申请还提供一种物流查询系统,物流查询本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提高相似物流单号识别精度的算法,用于在物流查询系统中识别物流渠道,其特征在于,所述方法包括以下步骤:步骤S1:获取物流单号,计算所述物流单号的长度,根据所述物流单号的长度从规则库中筛选具有相同物流单号长度的物流渠道,记录具有相同长度的全部所述物流渠道并计算所述物流渠道的数量N;步骤S2:根据N值进行所述物流单号的初步识别,所述物流单号的初步识别包括:当N=1时,将所述唯一的物流渠道作为所述物流单号的识别结果;当N≥2时,执行步骤S3;步骤S3:进行所述物流单号的匹配精度计算,所述匹配精度计算包括步骤S31

S34:步骤S31:根据各物流渠道的号段信息拆分所述物流单号正则表达式中的常数部分和变数部分,所述物流单号中与所述号段信息的内容相同且位置相同的部分作为所述正则表达式的常数部分,其余部分作为所述正则表达式的变数部分;步骤S32:计算各物流渠道对应正则表达式中所述常数部分的长度在整个规则中匹配到的长度比例,所述长度比例作为所述物流单号在相应物流渠道规则下的匹配精度值;步骤S33:将各物流渠道规则的匹配精度值按大小进行排序;步骤S34:取出匹配精度值最高的规则所对应的物流渠道;步骤S4:将匹配精度值最高的物流渠道作为所述物流单号的识别结果。2.如权利要求1所述提高相似物流单号识别精度的算法,其特征在于,在执行步骤S1之前,先将各物流渠道的信息数据存储在所述规则库中,物流渠道的信息数据包括物流渠道的名称、物流单号长度和号段信息,所述号段信息包括号段内容、号段位置和号段长度,每个物流渠道具有相应的号段信息:当某物流渠道的各物流单号中不包含内容相同且位置相同的字符串时,该物流渠道的号段信息为空,相应的该物流渠道的号段内容为空、号段位置为空、号段长度为零;当某物流渠道的各物流单号中包含内容相同且位置相同的字符串时,该字符串作为物流渠道的号段信息,该字符串的内容、位于物流单号的位置和字符长度信息分别作为该号段信息的号段内容、号段位置和号段长度。3.如权利要求2所述提高相似物流单号识别精度的算法,其特征在于,对于步骤S3,在执行步骤S31之前,对具有相同长度的N个物流渠道进行筛选,分析该N个物流渠道的号段信息,当某物流渠道的号段信息为非空时,对该物流渠道执行步骤S31的操作;当某物流渠道的号段信息为空时,放弃针对该物流渠道的匹配精度计算,该物流渠道不作为该物流单号的识别对象。4.如权利要求2所述提高相似物流单号识别精度的算法,其特征在于,当步骤S33中出现多个并列最大的匹配精度值时,终止进一步的匹配精度计算,并提示无法识别物流渠道,提请用户手动指定物流渠道。5.如权利要求2所述提高相似物流单号识别精度的算法,其特征在于,所述物流查询系统还包括物流单号库,所述物流单号库存储已完成查询的历史物流单号,根据所述历史物流单号计算相关物流渠道的号段信息,包括:步骤P1:选择需要计算号段信息的物流渠道,设置历史物流单号的调取规则,根据调取规则从物流单号库调取相应数量的M个该物流渠道的历史物流单号;步骤P2:设置预设相似值Y的大小,Y≤100%;
步骤P3:对该M个物流单号依次按最短长度L截取相应的字符串,每次截取的位置比前一次截取的位置增加一位,从各物流单号的首位字符开始截取,同一批次截取的字符串长度和位置相同,...

【专利技术属性】
技术研发人员:侯毅李浩雄陈寿宝梁金鉴
申请(专利权)人:深圳市帝盟网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1