一种基于数据分布的提单号分析方法技术

技术编号:33080758 阅读:16 留言:0更新日期:2022-04-15 10:33
本发明专利技术公开了一种基于数据分布的提单号分析方法,包括整体空间的探索,基于桶段的有效空间的探索、校验位的规则探索和基于历史序列数据对序列格式的提取与基于历史序列数据对场景的预判;本方法通过基于数据分布的数据分析方法,可以对序列号内数据进行精准预先提取,保证响应速度,并减少业务繁忙时间内的并发量,减少对相关站点的访问压力;在用户查询的场景下,对于常见的异常格式,罕见格式进行模糊匹配,根据历史统计数据可以利用序列号获取相关的规律。取相关的规律。

【技术实现步骤摘要】
一种基于数据分布的提单号分析方法


本专利技术涉及序列号分析领域,具体为一种基于数据分布的提单号分析方法。

技术介绍

在海运相关可获取的公开数据中,包括船信息,箱信息,海关信息,序列信息都是基于随机序列号生成的,而获取有效序列号才能得到相应的海运数据。这些有效序列号往往隐藏在巨大的号段空间内,有效率一般在1000

1000000分之一,而如何及时获取则几乎是一个不可能的任务;为此提供了一种基于数据分布的提单号分析方法。

技术实现思路

本专利技术的目的是针对现有技术的缺陷,提供一种基于数据分布的提单号分析方法,以解决上述
技术介绍
提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于数据分布的提单号分析方法,具体的方法如下:S1:整体空间的探索,基于桶段的有效空间的探索;S11:首先预估序列号空间:根据当前序列数据整理出通用格式,从而计算出序列空间的大小;同时分析有效数据的生命周期,制定获取策略,识别流水位校验位;S12:在获取了空间的大小后,我们将空间进行桶切割,每个桶的大小固定,大约从1万

100万个连续序列号;S13:对每个桶进行一定比例抽样,确定是否为有效桶;S14:通过摸桶结果,判断桶的有效性,对于没有任何有效序列的桶有如下两种可能,从未被使用的序列空间和已经使用过但是序列号生命周期已经结束的序列空间;S15:对于有效桶,为了进一步减少爬取量,对桶内进行分段,每段进行固定数量的抽样,确定桶内有效序列的密度,以及序列的发生时间是否过早,从而筛选出有新鲜数据的桶和段;S16:对有效桶段进行数据预先获取,使用分桶分段的方式,将有效爬取率提升至20%以上;S2:校验位的规则探索;S21:部分场景在序列号的末尾存在1

2位的校验位,通过序列的逐位重复性检查,即发现不存在其他位相同,该位不同的序列号,结合序列每位的出现概率,我们能够确认序列号的校验位和流水位;S22:校验规则的探索通过流水位的变化分析对校验位的影响,逐步解析校验位的生成规则,一般的序列号基本都是各位的线性组合,同时对字母进行数字映射而成,这种分析方式能够有效解析校验位,可以降低爬取的数量级,减少对场景访问的压力;S3:基于历史序列数据对序列格式的提取与基于历史序列数据对场景的预判;S31:序列号一般存在前缀、后缀和分号多种场景,同时序列也有的不同表述方式,
在用户查询时采用其中任何一种,能够识别出常用的序列格式,同时能够对序列号进行标准化处理;S32:序列格式的分析分成两个模块,分别是序列字数组合格式和头部特征,通过对这两项特征的出现频率统计,可以有效完成对序列格式的提取与更新;S33:通过对序列格式的规则整理,有效地对场景归属进行计分;从而可以支持依次访问各场景,满足用户的查询需求。作为本专利技术的一种优选技术方案,所述S13中桶的头部会进行更高强度的摸桶,桶的头部即序列号相对较小的序列。作为本专利技术的一种优选技术方案,所述S32中字数组合是指字母和数字组成序列的基本规则,头部特征是指序列前部的字母和数字组合。本专利技术的有益效果是:本方法通过基于数据分布的数据分析方法,可以对序列号内数据进行精准预先提取,保证响应速度,并减少业务繁忙时间内的并发量,减少对相关站点的访问压力;在用户查询的场景下,对于常见的异常格式,罕见格式进行模糊匹配。根据历史统计数据可以利用序列号获取相关的规律。
具体实施方式
下面对本专利技术的较佳实施例进行详细阐述,以使本专利技术的优点和特征能更易被本领域人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。本专利技术提供一种技术方案:一种基于数据分布的提单号分析方法,具体的方法如下:S1:整体空间的探索,基于桶段的有效空间的探索;S11:首先预估序列号空间:根据当前序列数据整理出通用格式,从而计算出序列空间的大小;同时分析有效数据的生命周期,制定获取策略,识别流水位校验位;S12:在获取了空间的大小后,我们将空间进行桶切割,每个桶的大小固定,大约从1万

100万个连续序列号;S13:对每个桶进行一定比例抽样,确定是否为有效桶;S14:通过摸桶结果,判断桶的有效性,对于没有任何有效序列的桶有如下两种可能,从未被使用的序列空间和已经使用过但是序列号生命周期已经结束的序列空间;S15:对于有效桶,为了进一步减少爬取量,对桶内进行分段,每段进行固定数量的抽样,确定桶内有效序列的密度,以及序列的发生时间是否过早,从而筛选出有新鲜数据的桶和段;S16:对有效桶段进行数据预先获取,使用分桶分段的方式,将有效爬取率提升至20%以上;S2:校验位的规则探索;S21:部分场景在序列号的末尾存在1

2位的校验位,通过序列的逐位重复性检查,即发现不存在其他位相同,该位不同的序列号,结合序列每位的出现概率,我们能够确认序列号的校验位和流水位;S22:校验规则的探索通过流水位的变化分析对校验位的影响,逐步解析校验位的生成规则,一般的序列号基本都是各位的线性组合,同时对字母进行数字映射而成,这种分
析方式能够有效解析校验位,可以降低爬取的数量级,减少对场景访问的压力;S3:基于历史序列数据对序列格式的提取与基于历史序列数据对场景的预判;S31:序列号一般存在前缀、后缀和分号多种场景,同时序列也有的不同表述方式,在用户查询时采用其中任何一种,能够识别出常用的序列格式,同时能够对序列号进行标准化处理;S32:序列格式的分析分成两个模块,分别是序列字数组合格式和头部特征,通过对这两项特征的出现频率统计,可以有效完成对序列格式的提取与更新;S33:通过对序列格式的规则整理,有效地对场景归属进行计分;从而可以支持依次访问各场景,满足用户的查询需求。所述S13中桶的头部会进行更高强度的摸桶,桶的头部即序列号相对较小的序列。所述S32中字数组合是指字母和数字组成序列的基本规则,头部特征是指序列前部的字母和数字组合。实施例1:一种基于数据分布的提单号分析方法,具体的方法如下:S1:整体空间的探索,基于桶段的有效空间的探索;S11:首先预估序列号空间:根据当前序列数据整理出通用格式,从而计算出序列空间的大小;同时分析有效数据的生命周期,制定获取策略,识别流水位校验位;S12:在获取了空间的大小后,我们将空间进行桶切割,每个桶的大小固定,大约从1万

100万个连续序列号;S13:对每个桶进行一定比例抽样,确定是否为有效桶;S14:通过摸桶结果,判断桶的有效性,对于没有任何有效序列的桶有如下两种可能,从未被使用的序列空间和已经使用过但是序列号生命周期已经结束的序列空间;S15:对于有效桶,为了进一步减少爬取量,对桶内进行分段,每段进行固定数量的抽样,确定桶内有效序列的密度,以及序列的发生时间是否过早,从而筛选出有新鲜数据的桶和段;S16:对有效桶段进行数据预先获取,使用分桶分段的方式,将有效爬取率提升至20%以上;S2:校验位的规则探索;S21:部分场景在序列号的末尾存在1

2位的校验位,通过序列的逐位重复性检查,即发现不存在其他位相同,该位不同的序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据分布的提单号分析方法,其特征在于:具体的方法如下:S1:整体空间的探索,基于桶段的有效空间的探索;S11:首先预估序列号空间:根据当前序列数据整理出通用格式,从而计算出序列空间的大小;同时分析有效数据的生命周期,制定获取策略,识别流水位校验位;S12:在获取了空间的大小后,我们将空间进行桶切割,每个桶的大小固定,大约从1万

100万个连续序列号;S13:对每个桶进行一定比例抽样,确定是否为有效桶;S14:通过摸桶结果,判断桶的有效性,对于没有任何有效序列的桶有如下两种可能,从未被使用的序列空间和已经使用过但是序列号生命周期已经结束的序列空间;S15:对于有效桶,为了进一步减少爬取量,对桶内进行分段,每段进行固定数量的抽样,确定桶内有效序列的密度,以及序列的发生时间是否过早,从而筛选出有新鲜数据的桶和段;S16:对有效桶段进行数据预先获取,使用分桶分段的方式,将有效爬取率提升至20%以上;S2:校验位的规则探索;S21:部分场景在序列号的末尾存在1

2位的校验位,通过序列的逐位重复性检查,即发现不存在其他位相同,该位不同的序列号,结合序列每位的出现概率,我们能够确...

【专利技术属性】
技术研发人员:高时超
申请(专利权)人:钧航武汉物流信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1