【技术实现步骤摘要】
一种提高相似物流单号识别精度的算法和物流查询系统
[0001]本申请涉及计算机
,特别涉及一种提高相似物流单号识别精度的算法和物流查询系统,以及一种通过邮件查询物流单号的方法和系统。
技术介绍
[0002]目前的全球综合物流查询平台(也称“物流查询系统”),由于物流行业没有约束性的标准,每家物流渠道(也称“物流商”)都有自己的物流单号自动生成方式和规则。没有统一约束和规范的物流单号,对于综合物流查询系统而言,如果支持的物流渠道越多,相似物流单号(指物流单号规则一样或者非常相似,肉眼不易分辨的物流单号)在查询时发生冲突的概率就会越高,从而导致物流渠道不能被自动识别,使得用户查询物流单号的效率降低,影响用户对物流查询系统的体验效果。
[0003]目前通常的做法是根据不同的物流渠道配置物流单号的正则匹配规则,然后通过规则来区分一部分物流单号;但是对于规则非常接近的相似物流单号,难以在正则匹配基础上进一步的提高物流渠道的识别精度,即便在正则匹配基础上实现了物流渠道的识别,其规则配置会非常复杂,不便于维护和使用。在物流查询系统的相关技术中,对于不能识别的相似物流单号,通常是由用户手动指定相应的物流渠道,这种操作方式会耗费用户很多时间,对于采用其他语言的跨国物流渠道而言,也给用户的物流单号查询工作带来很大困扰和麻烦。
[0004]此外,对于物流单号查询频率非常高的电商领域,买家在各电商平台购买的商品发货后,一般都会收到卖家的发货邮件;发货邮件主要用于通知买家订单商品已经发货,同时提供发货的物流单号或者物流单 ...
【技术保护点】
【技术特征摘要】
1.一种提高相似物流单号识别精度的算法,用于在物流查询系统中识别物流渠道,其特征在于,所述方法包括以下步骤:步骤S1:获取物流单号,计算所述物流单号的长度,根据所述物流单号的长度从规则库中筛选具有相同物流单号长度的物流渠道,记录具有相同长度的全部所述物流渠道并计算所述物流渠道的数量N;步骤S2:根据N值进行所述物流单号的初步识别,所述物流单号的初步识别包括:当N=1时,将所述唯一的物流渠道作为所述物流单号的识别结果;当N≥2时,执行步骤S3;步骤S3:进行所述物流单号的匹配精度计算,所述匹配精度计算包括步骤S31
‑
S34:步骤S31:根据各物流渠道的号段信息拆分所述物流单号正则表达式中的常数部分和变数部分,所述物流单号中与所述号段信息的内容相同且位置相同的部分作为所述正则表达式的常数部分,其余部分作为所述正则表达式的变数部分;步骤S32:计算各物流渠道对应正则表达式中所述常数部分的长度在整个规则中匹配到的长度比例,所述长度比例作为所述物流单号在相应物流渠道规则下的匹配精度值;步骤S33:将各物流渠道规则的匹配精度值按大小进行排序;步骤S34:取出匹配精度值最高的规则所对应的物流渠道;步骤S4:将匹配精度值最高的物流渠道作为所述物流单号的识别结果。2.如权利要求1所述提高相似物流单号识别精度的算法,其特征在于,在执行步骤S1之前,先将各物流渠道的信息数据存储在所述规则库中,物流渠道的信息数据包括物流渠道的名称、物流单号长度和号段信息,所述号段信息包括号段内容、号段位置和号段长度,每个物流渠道具有相应的号段信息:当某物流渠道的各物流单号中不包含内容相同且位置相同的字符串时,该物流渠道的号段信息为空,相应的该物流渠道的号段内容为空、号段位置为空、号段长度为零;当某物流渠道的各物流单号中包含内容相同且位置相同的字符串时,该字符串作为物流渠道的号段信息,该字符串的内容、位于物流单号的位置和字符长度信息分别作为该号段信息的号段内容、号段位置和号段长度。3.如权利要求2所述提高相似物流单号识别精度的算法,其特征在于,对于步骤S3,在执行步骤S31之前,对具有相同长度的N个物流渠道进行筛选,分析该N个物流渠道的号段信息,当某物流渠道的号段信息为非空时,对该物流渠道执行步骤S31的操作;当某物流渠道的号段信息为空时,放弃针对该物流渠道的匹配精度计算,该物流渠道不作为该物流单号的识别对象。4.如权利要求2所述提高相似物流单号识别精度的算法,其特征在于,当步骤S33中出现多个并列最大的匹配精度值时,终止进一步的匹配精度计算,并提示无法识别物流渠道,提请用户手动指定物流渠道。5.如权利要求2所述提高相似物流单号识别精度的算法,其特征在于,所述物流查询系统还包括物流单号库,所述物流单号库存储已完成查询的历史物流单号,根据所述历史物流单号计算相关物流渠道的号段信息,包括:步骤P1:选择需要计算号段信息的物流渠道,设置历史物流单号的调取规则,根据调取规则从物流单号库调取相应数量的M个该物流渠道的历史物流单号;步骤P2:设置预设相似值Y的大小,Y≤100%;
步骤P3:对该M个物流单号依次按最短长度L截取相应的字符串,每次截取的位置比前一次截取的位置增加一位,从各物流单号的首位字符开始截取,同一批次截取的字符串长度和位置相同,...
【专利技术属性】
技术研发人员:侯毅,李浩雄,陈寿宝,梁金鉴,
申请(专利权)人:深圳市帝盟网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。