System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及快递派件领域,尤其涉及一种基于关键词和空间聚类的派件站点获取方法、介质及设备。
技术介绍
1、快件入网后需要根据用户填写的收件地址等相关信息分配其末端配送的站点。在一些地区,邮编在区分地理区域上还发挥着重要的作用,可以基于邮编来进行站点分配,但是某些地区邮编数量较多且存在大小邮编以及新旧邮编混用的情况,一个邮编可能对应多个站点,所以维护邮编站点对应表的工程量很大,无法精确确定对应站点。
2、还有一些物流公司会通过外部地图厂商或者通过小件员的历史揽派数据获取定位,但是外部地图厂商获取到的地址对应经纬度不准确,小件员获取到的揽派定位数据与地址不一致,导致打点漂移,从而导致获取到的站点不准确。也尝试过融合外部地图厂商及小件员揽派数据对地址定位进行纠偏的方式,但是该方式只能针对出现过的且完全一致的地址,数据量较少,效果不理想。
技术实现思路
1、为了解决
技术介绍
中提到的至少一个技术问题,本申请的目的在于提供一种基于关键词和空间聚类的派件站点获取方法、介质及设备,可以提高派件站点的分配精度,降低快递运输成本。
2、为实现上述目的,本申请提供如下技术方案:
3、第一方面,本申请实施例提供了一种基于关键词和空间聚类的派件站点获取方法,包括以下步骤:
4、预先构建关键词表,包括以下步骤:
5、s1,基于多个历史地址数据,构建地址数据表,地址数据表中包含行政区划、邮编、详细地址、地址经纬度;
6、s2,对详细地址分词,
7、s3,将地址数据集中的元素进行组合,得到多个子集;将首元素是关键元素的子集作为频繁项,构成频繁项集合;
8、s4,将每一条历史地址数据的地址数据集对应的子集与频繁项集合中的频繁项进行匹配,对于具有包含关系的频繁项,剔除被包含的频繁项,得到历史地址数据对应的有效频繁项;
9、s5,针对每一条历史地址数据,统计在对应的行政区划、邮编下的有效频繁项的频数,计算有效频繁项的频数之和;利用有效频繁项以及对应的频数之和,与地址数据表联合,构建原始关键词表;其中,有效频繁项构成的集合作为地址关键词,替代详细地址;
10、s6,针对原始关键词表,按照行政区划、邮编、地址关键词三项全部相同进行分组得到多个组,去除不符合预设要求的组,计算剩下组的中心经纬度,作为地址关键词对应的新经纬度;并计算地址关键词中关键元素的分数之和,作为地址关键词的分数;利用行政区划、邮编、地址关键词以及对应的新经纬度和分数,构建关键词表;
11、获取待分配地址,所述待分配地址包含行政区划、邮编、详细地址,利用步骤s2至s3得到待分配地址对应的多个子集;
12、根据行政区划和邮编,从预先构建的所述关键词表中查找对应的所有地址关键词;
13、在确定的所有地址关键词中筛选出能被所述待分配地址对应的多个子集覆盖的,且分数最高的地址关键词对应的新经纬度作为所述待分配地址的经纬度;
14、利用所述待分配地址的经纬度在站点地图上打点,获取对应的派件站点。
15、进一步的,所述对详细地址分词的步骤,包括:
16、将行政区划、详细地址转化为小写字母;
17、根据标准行政区划映射表,将行政区划映射为标准行政区划;
18、对详细地址进行清洗,去除无意义符号;
19、根据空格和逗号对详细地址进行拆分,得到由单个词组成的地址数据集。
20、进一步的,在所述统计地址数据集中元素的频数之前,去除地址数据集中的数字、符号、单个字母。
21、进一步的,所述将地址数据集中的元素进行组合的步骤,包括:
22、利用增量构造法将地址数据集中的元素按顺序进行组合,得到多个子集;
23、其中,所述子集中的元素数量大于等于2,小于等于6。
24、进一步的,在所述将首元素是关键元素的子集作为频繁项之后,还包括:
25、统计首元素是关键元素的子集的频数,去除频数小于等于第二预设阈值的子集;
26、将剩余的首元素是关键元素的子集作为频繁项,构成频繁项集合。
27、进一步的,所述去除不符合预设要求的组的步骤,包括:
28、针对每个组,利用聚类算法对组内的节点进行聚类,得到多个簇,每个簇包含一个聚类中心;其中所述节点是指每一条地址关键词对应的数据;
29、根据地址关键词对应的经纬度计算每个聚类中心的经纬度,并计算聚类中心之间的距离;若聚类中心的最远距离大于第三预设阈值,去除所述组的数据;
30、计算离群点占比,若离群点占比大于第四预设阈值,去除所述组的数据;
31、根据组内节点的经纬度,在站点地图上打点,若小于第五预设阈值的节点属于且仅属于同一个站点,则去除所述组的数据。
32、进一步的,在所述去除不符合预设要求的组之后,还包括:
33、在剩下的组中,去除被判定为离群点的数据。
34、第二方面,本申请实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于关键词和空间聚类的派件站点获取方法。
35、第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于关键词和空间聚类的派件站点获取方法。
36、与现有技术相比,本申请的有益效果是:利用历史地址数据筛选出有效频繁项来构建关键词表,可以根据关键词表自动化提取待分配地址的地址关键词以及地址关键词对应的经纬度,减少了人工维护成本;一个地址关键词只对应一个站点,提高了快递站点分配的准确度;对地址提取关键词,保留地址关键信息的同时,提高了相近地址的重复率,使得可以通过大数据聚类方式对经纬度进行纠偏,从而进一步提升快递站点分配的准确度,降低运输成本。
本文档来自技高网...【技术保护点】
1.一种基于关键词和空间聚类的派件站点获取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,所述对详细地址分词的步骤,包括:
3.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,在所述统计地址数据集中元素的频数之前,去除地址数据集中的数字、符号、单个字母。
4.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,所述将地址数据集中的元素进行组合的步骤,包括:
5.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,在所述将首元素是关键元素的子集作为频繁项之后,还包括:
6.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,所述去除不符合预设要求的组的步骤,包括:
7.根据权利要求6所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,在所述去除不符合预设要求的组之后,还包括:
8.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执
9.一种终端设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的方法。
...【技术特征摘要】
1.一种基于关键词和空间聚类的派件站点获取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,所述对详细地址分词的步骤,包括:
3.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,在所述统计地址数据集中元素的频数之前,去除地址数据集中的数字、符号、单个字母。
4.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,所述将地址数据集中的元素进行组合的步骤,包括:
5.根据权利要求1所述的基于关键词和空间聚类的派件站点获取方法,其特征在于,在所述将首元素是关键元素的...
【专利技术属性】
技术研发人员:周羽勍,孙健,凌彬强,龚鑫,
申请(专利权)人:浙江百世技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。