基于文本与距离相似性的末端网点归结方法技术

技术编号：38099007 阅读：10 留言：0更新日期：2023-07-06 09:15

本发明专利技术公开了一种基于文本与距离相似性的末端网点归结方法，包括以下步骤：S1，利用预设地图的地址编码API将投递包裹上的地址信息转化为标准地址名，并获取标准地址名对应的GIS坐标；设置标准地址包括标准地址名及对应的GIS坐标；S2，利用文本相似性和空间距离将所有的标准地址进行划分，根据划分结果将所有的标准地址归结到相应的末端网点。本发明专利技术基于地址数据同时具备文本属性和地理属性，能够实现较高准确度末端网点归结功能，同时能够以文本和距离的角度挖掘出潜在的末端网点。和距离的角度挖掘出潜在的末端网点。和距离的角度挖掘出潜在的末端网点。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本与距离相似性的末端网点归结方法

[0001]本专利技术涉及快递物流末端网点分区
，尤其是一种基于文本与距离相似性的末端网点归结方法。

技术介绍

[0002]末端网点指为了满足居民小区、商圈、写字楼、工厂、学校、医院等末端客户需求场景而设立的快递超市、菜鸟驿站等物流节点。
[0003]末端网点统计指“根据区域内一定时段的包裹地址信息，将地址归结到对应的末端网点，然后计算不同末端网点对应时间段的包裹需求量”。例如：输入为半年某区的所有包裹地址，根据包裹的地址信息，如xx区xx街道xx号，利用算法找到其对应末端网点(假设为xx区xx街道)，然后统计所有数据中属于xx区xx街道的信息条数(即该末端网点的包裹数量)。针对重庆邮政的实际末端网点统计过程中，存在包裹地址无法直接对应末端网点的问题，因此对于如何将包裹地址归结到末端网点是亟需解决的问题，

技术实现思路

[0004]针对现有技术中的缺陷，本专利技术提供了一种基于文本与距离相似性的末端网点归结方法，能够实现较高准确度末端网点归结功能。
[0005]本专利技术提供了一种基于文本与距离相似性的末端网点归结方法，包括以下步骤：
[0006]S1，利用预设地图的地址编码API将投递包裹上的地址信息转化为标准地址名，并获取标准地址名对应的GIS坐标；设置标准地址包括标准地址名及对应的GIS坐标；
[0007]S2，利用文本相似性和空间距离将所有的标准地址进行划分，根据划分结果将所有的标准地址归结到相应的末端网点。
>[0008]优选地，所述归结方法还包括步骤S3，根据归结的末端网点字段数量，统计各末端网点在一定时间的投递量。
[0009]优选地，所述预设地图包括高德地图。
[0010]优选地，所述步骤S2包括步骤：
[0011]S21,根据标准地址与预先获取的典型网点名的距离将标准地址划分为典型地址和剩余地址；
[0012]S22，将典型地址的标准地址名与预先获取的典型网点名进行匹配，根据匹配结果将典型地址划分到相应的末端网点；
[0013]S23，利用预设聚类算法将剩余地址按照距离关系聚于不同的虚拟末端网点。
[0014]优选地，所述步骤S22包括步骤：
[0015]S221，将典型地址的标准地址名与预先获取的典型网点名匹配，将能匹配上的标准地址名对应的典型地址设置为典型末端网点，将不能匹配上的标准地址名对应的典型地址设置为其余标准地址；
[0016]S222，将典型末端网点内部所有坐标均值作为典型末端网点中心坐标；
[0017]S223，计算其余标准地址的GIS坐标与典型末端网点中心坐标之间的距离，根据所述距离将其余标准地址划分到相应的典型末端网点。
[0018]优选地，所述步骤S23包括步骤：
[0019]S231，利用预设文本处理库对剩余地址进行分词、去重，将对分词、去重后的剩余地址按照预设合并算法进行相似合并,得到处理后的剩余地址；
[0020]S232，利用预设聚类算法对所述处理后的剩余地址按照其GIS坐标进行聚类，计算各聚类结果内部各个GIS坐标与聚类中心的距离，若均在聚类中心的预设辐射范围内，则输出虚拟末端网点，所述聚类中心的坐标即为所述虚拟末端网点的中心坐标。
[0021]优选地，根据各个聚类所有需求点的平均值更新聚类中心。
[0022]优选地，所述预设文本处理库包括Jieba文本处理库。
[0023]优选地，所述预设聚类算法包括kmeans聚类算法。
[0024]本专利技术的有益效果为：
[0025]本专利技术考虑到无法直接获取各地址对应的末端网点的问题，提出了一种基于文本与距离相似性的末端网点归结算法，通过综合衡量各地址文本分词之间的相似性以及地址对应的经纬度坐标之间的距离，来将包裹地址归结到不同的末端网点，从而实现对末端网点需求量的统计。能够为企业末端运营提供决策依据，同时利用实际需求地址归结出来的末端网点可以支持企业未来的末端网点布局建设。
附图说明
[0026]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。
[0027]图1为本专利技术实施例提供的基于文本与距离相似性的末端网点归结方法的流程示意图；
[0028]图2为本专利技术实施例提供的步骤S231中相似合并的流程示意图；
[0029]图3为本专利技术实施例提供的步骤S232中聚类的流程示意图；
[0030]图4为示例提供的基于文本与距离相似性的末端网点归结方法的流程示意图；
[0031]图5为示例提供的江北区末端网点分布情况示意图。
具体实施方式
[0032]下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案，因此只作为示例，而不能以此来限制本专利技术的保护范围。
[0033]需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。
[0034]如图1所示，本专利技术实施例提供了一种基于文本与距离相似性的末端网点归结方法，包括以下步骤：
[0035]S1，利用预设地图的地址编码API将投递包裹上的地址信息转化为标准地址名，并获取标准地址名对应的GIS坐标；设置标准地址包括标准地址名及对应的GIS坐标；
[0036]S2，利用文本相似性和空间距离将所有的标准地址进行划分，根据划分结果将所有的标准地址归结到相应的末端网点；
[0037]S3，根据归结的末端网点字段数量，统计各末端网点在一定时间的投递量。
[0038]其中，预设地图包括但不限于高德地图、百度地图、腾讯地图等，在此不做限制。本专利技术实施例中，以高德地图为例。
[0039]由于包裹地址数据存在低粒度、随意性的特点，如xx小区xx栋xx号、xx小区菜鸟等，这些地址在实际过程中一般按照同一个小区来处理(即都以xx小区来代表内部所有的需求地址)。基于该问题，本专利技术实施例通过调用高德地图的地址编码API来将输入的地址名全部转换为标准地址名，如“重庆市重庆市江北区南桥寺明瑜恒康105
‑7‑
2”，通过API编码的结果是“重庆市江北区明瑜恒康|105号”。本专利技术实施例可将输入的地址去掉部分细节统一化为标准地址，实现了将细节和主要部分分开的标准化工作。同时，高德地图能够返回标准化地址的坐标，可以避免仅满足地址名称相似的错误结果。
[0040]进一步地，步骤S2包括步骤：
[0041]S21,根据标准地址与预先获取的典型网点名的距离将标准地址划分为典型地址和剩余地址；
[0042]S22，将典型地址的标准地址名与预先获取的典型网点名进行匹配，根据匹配结果将典型地址划分到相应的末端网点；<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于文本与距离相似性的末端网点归结方法，其特征在于，包括以下步骤：S1，利用预设地图的地址编码API将投递包裹上的地址信息转化为标准地址名，并获取标准地址名对应的GIS坐标；设置标准地址包括标准地址名及对应的GIS坐标；S2，利用文本相似性和空间距离将所有的标准地址进行划分，根据划分结果将所有的标准地址归结到相应的末端网点。2.根据权利要求1所述的基于文本与距离相似性的末端网点归结方法，其特征在于，所述归结方法还包括步骤S3，根据归结的末端网点字段数量，统计各末端网点在一定时间的投递量。3.根据权利要求1所述的基于文本与距离相似性的末端网点归结方法，其特征在于，所述预设地图包括高德地图。4.根据权利要求1所述的基于文本与距离相似性的末端网点归结方法，其特征在于，所述步骤S2包括步骤：S21,根据标准地址与预先获取的典型网点名的距离将标准地址划分为典型地址和剩余地址；S22，将典型地址的标准地址名与预先获取的典型网点名进行匹配，根据匹配结果将典型地址划分到相应的末端网点；S23，利用预设聚类算法将剩余地址按照距离关系聚于不同的虚拟末端网点。5.根据权利要求4所述的基于文本与距离相似性的末端网点归结方法，其特征在于，所述步骤S22包括步骤：S221，将典型地址的标准地址名与预先获取的典型网点名匹配，将能匹...

【专利技术属性】
技术研发人员：赵泉午，林娅，江咏，陈云凯，陈红，
申请(专利权)人：重庆机电职业技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人