地址纠错方法、装置、计算机设备及可读介质制造方法及图纸

技术编号:38195572 阅读:10 留言:0更新日期:2023-07-21 16:31
本申请公开了一种地址纠错方法、装置、计算机设备及可读介质,该方法包括:确定待处理的地址文本中的冲突层级,调用与冲突层级对应的预测模型;对地址文本中不同地址层级信息中的每个词及其对应的词级进行向量化处理,得到由词向量和词级向量组合而成的拼接向量并输入与冲突层级对应的预测模型中,输出冲突层级对应的地址层级数据并据其地址文本进行更新;本申请为不同的地址层级配置对应的预测模型,对地址文本中出现冲突的层级进行预测和纠错得到标准地址,能够有效减少由于冲突地址层级信息导致的路由错误问题降低物流成本,同时不需要依赖数据库减少数据库维护成本。需要依赖数据库减少数据库维护成本。需要依赖数据库减少数据库维护成本。

【技术实现步骤摘要】
地址纠错方法、装置、计算机设备及可读介质


[0001]本申请属于地理信息
,更具体地,涉及一种地址纠错方法、装置、计算机设备及可读介质。

技术介绍

[0002]在完整的物流配送体系中,配送系统首先需要根据客户下单的地址进行层级匹配,匹配完成后由路由分发系统进行货物的路由分单。然而,由于中文地址写法多样,部分用户无法提供系统可直接识别的规范地址,影响后续的派件业务,甚至导致快件错分。
[0003]目前常用的解决方案是根据已有地址建立并维护白名单地址库(词典),并预先确定地址文本匹配规则,获取客户提供的地址之后,基于匹配规则将该地址与白名单地址库中的已有地址进行匹配,以此来获取标准地址。但是,这种规则匹配容易出现匹配错误,导致快件路由错误,增加物流成本;与此同时,需要实时维护词典和匹配规则,并且中文地址写法多样,难以建立全面穷举的地址文本与不同地址层级间多对一的映射关系地址库维护成本大。

技术实现思路

[0004]针对现有技术的至少一个缺陷或改进需求,本申请提供了一种地址纠错方法、装置、计算机设备及可读介质,其目的在于解决现有基于词典匹配的方式确定标准地址,容易出现匹配错误,且地址库维护成本大。
[0005]为实现上述目的,按照本申请的第一个方面,提供了一种地址纠错方法,该方法包括:
[0006]获取待处理的地址文本;
[0007]确定所述地址文本中的冲突层级,调用与所述冲突层级对应的预测模型;
[0008]对所述地址文本中不同地址层级信息中的每个词及其对应的词级进行向量化处理,得到由词向量和词级向量组合而成的拼接向量;
[0009]将所述拼接向量输入与冲突层级对应的所述预测模型中,输出冲突层级对应的地址层级数据,并依据所述地址层级数据对地址文本进行更新;其中,所述预测模型为利用具有冲突层级对应的地址层级标签的样本地址文本训练得到,各样本地址文本被处理为拼接向量后与其对应的地址层级标签输入预测模型中。
[0010]在本申请的一些实施例中,所述获取待处理的地址文本之后,所述方法还包括:
[0011]将所述地址文本与预先配置的白名单地址库中的标准地址进行匹配,所述白名单地址库用于存储标准地址的地址层级信息之间的关联关系,匹配成功则根据所述关联关系确定所述地址文本中冲突层级对应的地址层级信息。
[0012]在本申请的一些实施例中,所述确定所述地址文本中的冲突层级,包括:
[0013]对所述地址文本进行预处理,预处理包括地址文本规范化、地址分词和/或词级过滤;
[0014]对预处理后的地址文本进行分词处理,得到不同地址层级的地址层级信息;
[0015]根据各所述地址层级信息之间的层级关系,确定所述地址文本中的冲突层级。
[0016]在本申请的一些实施例中,所述将所述拼接向量输入与冲突层级对应的所述预测模型中,输出冲突层级对应的地址层级数据,并依据所述地址层级数据对地址文本进行更新,包括:
[0017]将所述拼接向量输入所述冲突层级对应的预测模型,通过所述预测模型对所述拼接向量卷积处理,得到所述冲突层级对应的候选地址层级数据,以及所述候选地址层级数据对应的置信度;所述预测模型包括一级城市预测模型、二级街道预测模型、三级社区预测模型、四级网点预测模型和五级兴趣面预测模型;
[0018]将置信度最大的候选地址层级数据设置为所述冲突层级对应的地址层级数据,并依据所述地址层级数据对地址文本进行更新。
[0019]在本申请的一些实施例中,所述预测模型的训练过程包括:
[0020]获取第一样本地址文本,所述第一样本地址文本具有冲突层级对应的地址层级标签;
[0021]对所述第一样本地址文本中不同地址层级的每个词及其对应的词级进行向量化处理,得到由样本词向量和样本词级向量组合而成的样本拼接向量;
[0022]根据各所述第一样本地址文本对应的样本拼接向量与冲突层级对应的地址层级标签得到第一训练样本集;
[0023]根据所述第一训练样本集进行模型训练,得到训练好的预测模型。
[0024]在本申请的一些实施例中,所述根据所述第一训练样本集进行模型训练得,到训练好的预测模型,包括:
[0025]通过待训练的预测模型,根据所述样本拼接向量生成冲突层级对应的地址层级预测数据;
[0026]计算所述冲突层级对应的地址层级数据与相应的地址层级标签之间的误差,并根据所述误差反向调整所述待训练的预测模型的模型参数;
[0027]返回至所述通过待训练的预测模型,根据所述样本拼接向量生成冲突层级对应的地址层级预测数据的步骤继续执行,直至满足迭代停止条件,停止迭代,得到已训练好的预测模型。
[0028]在本申请的一些实施例中,所述根据所述样本拼接向量生成冲突层级对应的地址层级预测数据具体包括:
[0029]对所述样本拼接向量进行特征提取,得到相应的最大池化特征向量、平均池化特征向量与权重特征向量;
[0030]根据所述最大池化特征向量、平均池化特征向量与权重特征向量,生成冲突层级对应的至少一个候选地址层级数据,且每个所述候选地址层级数据具有对应的置信度;
[0031]选择置信度最大的候选地址层级数据作为冲突层级对应的地址层级预测数据。
[0032]在本申请的一些实施例中,上述地址纠错方法还包括:
[0033]当满足模型更新条件时,获取第二训练样本集;所述第二训练样本集包括第二样本地址文本对应的样本拼接向量以及与冲突层级对应的地址层级标签;
[0034]根据所述第二训练样本集对所述预测模型进行迭代更新,得到更新后的预测模
型,并将所述更新后的预测模型作为已训练好的预测模型。
[0035]按照本申请的第二个方面,还提供了一种地址纠错装置,该装置包括:
[0036]获取模块,用于获取待处理的地址文本;
[0037]冲突判断模块,用于确定所述地址文本中的冲突层级;
[0038]向量生成模块,用于对所述地址文本中不同地址层级信息中的每个词及其对应的词级进行向量化处理,得到由词向量和词级向量组合而成的拼接向量;
[0039]预测模块,用于将所述拼接向量输入与冲突层级对应的所述预测模型中,输出冲突层级对应的地址层级数据,并依据所述地址层级数据对地址文本进行更新。
[0040]按照本申请的第三个方面,还提供了一种计算机设备,其包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述方法的步骤。
[0041]按照本申请的第四个方面,还提供了一种计算机可读介质,其存储有可由计算机设备执行的计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述任一项所述方法的步骤。
[0042]总体而言,通过本申请所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址纠错方法,其特征在于,包括:获取待处理的地址文本;确定所述地址文本中的冲突层级,调用与所述冲突层级对应的预测模型;对所述地址文本中不同地址层级信息中的每个词及其对应的词级进行向量化处理,得到由词向量和词级向量组合而成的拼接向量;将所述拼接向量输入与冲突层级对应的所述预测模型中,输出冲突层级对应的地址层级数据,并依据所述地址层级数据对地址文本进行更新;其中,所述预测模型为利用具有冲突层级对应的地址层级标签的样本地址文本训练得到,各样本地址文本被处理为拼接向量后与其对应的地址层级标签输入预测模型中。2.如权利要求1所述的地址纠错方法,其特征在于,所述获取待处理的地址文本之后还包括:将所述地址文本与预先配置的白名单地址库中的标准地址进行匹配,所述白名单地址库存储标准地址的地址层级信息之间的关联关系,匹配成功则根据所述关联关系确定所述地址文本中冲突层级对应的地址层级信息。3.如权利要求1所述的地址纠错方法,其特征在于,所述确定所述地址文本中的冲突层级,包括:对所述地址文本进行预处理,预处理包括地址文本规范化、地址分词和/或词级过滤;对预处理后的地址文本进行分词处理,得到不同地址层级的地址层级信息;根据各所述地址层级信息之间的层级关系,确定所述地址文本中的冲突层级。4.如权利要求1

3任意一项所述的地址纠错方法,其特征在于,所述将所述拼接向量输入与冲突层级对应的所述预测模型中,输出冲突层级对应的地址层级数据,并依据所述地址层级数据对地址文本进行更新,包括:将所述拼接向量输入所述冲突层级对应的预测模型,通过所述预测模型对所述拼接向量卷积处理,得到所述冲突层级对应的候选地址层级数据,以及所述候选地址层级数据对应的置信度;所述预测模型包括一级城市预测模型、二级街道预测模型、三级社区预测模型、四级网点预测模型和五级兴趣面预测模型;将置信度最大的候选地址层级数据设置为所述冲突层级对应的地址层级数据,并依据所述地址层级数据对地址文本进行更新。5.如权利要求4所述的地址纠错方法,其特征在于,所述预测模型的训练过程包括:获取第一样本地址文本,所述第一样本地址文本具有冲突层级对应的地址层级标签;对所述第一样本地址文本中不同地址层级的每个词及其对应的词级进行向量化处理,得到由样本词向量和样本词级向量组合而成的样本拼接向量;根据各所述第一样本地址文本对...

【专利技术属性】
技术研发人员:张定棋周训飞王小龙
申请(专利权)人:丰图科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1