一种基于数据分布的提单号分析方法技术

技术编号：33080758 阅读：16 留言：0更新日期：2022-04-15 10:33

本发明专利技术公开了一种基于数据分布的提单号分析方法，包括整体空间的探索，基于桶段的有效空间的探索、校验位的规则探索和基于历史序列数据对序列格式的提取与基于历史序列数据对场景的预判；本方法通过基于数据分布的数据分析方法，可以对序列号内数据进行精准预先提取，保证响应速度，并减少业务繁忙时间内的并发量，减少对相关站点的访问压力；在用户查询的场景下，对于常见的异常格式，罕见格式进行模糊匹配，根据历史统计数据可以利用序列号获取相关的规律。取相关的规律。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据分布的提单号分析方法

本专利技术涉及序列号分析领域，具体为一种基于数据分布的提单号分析方法。

技术介绍

在海运相关可获取的公开数据中，包括船信息，箱信息，海关信息，序列信息都是基于随机序列号生成的，而获取有效序列号才能得到相应的海运数据。这些有效序列号往往隐藏在巨大的号段空间内，有效率一般在1000
‑
1000000分之一，而如何及时获取则几乎是一个不可能的任务；为此提供了一种基于数据分布的提单号分析方法。

技术实现思路

本专利技术的目的是针对现有技术的缺陷，提供一种基于数据分布的提单号分析方法，以解决上述
技术介绍
提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于数据分布的提单号分析方法，具体的方法如下：S1：整体空间的探索，基于桶段的有效空间的探索；S11：首先预估序列号空间：根据当前序列数据整理出通用格式，从而计算出序列空间的大小；同时分析有效数据的生命周期，制定获取策略，识别流水位校验位；S12：在获取了空间的大小后，我们将空间进行桶切割，每个桶的大小固定，大约从1万
‑
100万个连续序列号；S13：对每个桶进行一定比例抽样，确定是否为有效桶；S14：通过摸桶结果，判断桶的有效性，对于没有任何有效序列的桶有如下两种可能，从未被使用的序列空间和已经使用过但是序列号生命周期已经结束的序列空间；S15：对于有效桶，为了进一步减少爬取量，对桶内进行分段，每段进行固定数量的抽样，确定桶内有效序列的密度，以及序列的发生时间是否过早，从而筛选出有新...

【技术保护点】

【技术特征摘要】
1.一种基于数据分布的提单号分析方法，其特征在于：具体的方法如下：S1：整体空间的探索，基于桶段的有效空间的探索；S11：首先预估序列号空间：根据当前序列数据整理出通用格式，从而计算出序列空间的大小；同时分析有效数据的生命周期，制定获取策略，识别流水位校验位；S12：在获取了空间的大小后，我们将空间进行桶切割，每个桶的大小固定，大约从1万
‑
100万个连续序列号；S13：对每个桶进行一定比例抽样，确定是否为有效桶；S14：通过摸桶结果，判断桶的有效性，对于没有任何有效序列的桶有如下两种可能，从未被使用的序列空间和已经使用过但是序列号生命周期已经结束的序列空间；S15：对于有效桶，为了进一步减少爬取量，对桶内进行分段，每段进行固定数量的抽样，确定桶内有效序列的密度，以及序列的发生时间是否过早，从而筛选出有新鲜数据的桶和段；S16：对有效桶段进行数据预先获取，使用分桶分段的方式，将有效爬取率提升至20%以上；S2：校验位的规则探索；S21：部分场景在序列号的末尾存在1
‑
2位的校验位，通过序列的逐位重复性检查，即发现不存在其他位相同，该位不同的序列号，结合序列每位的出现概率，我们能够确...

【专利技术属性】
技术研发人员：高时超，
申请(专利权)人：钧航武汉物流信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人