地址匹配方法及装置制造方法及图纸

技术编号:25521980 阅读:20 留言:0更新日期:2020-09-04 17:12
本申请提供了一种地址匹配方法及装置。所述方法包括:采用预设的地址识别模型,识别出待匹配地址对应的待匹配地址分词,以及每个待匹配地址分词对应的地址等级,根据预设的关键地址等级,从多个待匹配地址分词中确定出关键地址分词,进而可以从预设标准地址库中确定出与关键地址分词相匹配的候选地址,并将与待匹配地址相似度最高的候选地址,确定为目标地址。由于候选地址是根据关键地址分词筛选出的,而关键地址分词又是根据标准地址中关键信息对应的地址等级确定的,因此,可以保证关键地址分词是待匹配地址中的关键信息,进而可以缩小候选地址与待匹配地址之间的差距,提高地址匹配技术的匹配准确度。

【技术实现步骤摘要】
地址匹配方法及装置
本申请涉及数据处理
,特别涉及一种地址匹配方法及装置。
技术介绍
古往今来,几乎人类所有活动都是发生在地球上,都与地球表面位置(即地理空间位置)息息相关,随着计算机技术的日益发展和普及,地理信息系统(GeographyInformationSystem,GIS)以及在此基础上发展起来的“数字地球”、“数字城市”在人们的生产和生活中起着越来越重要的作用。GIS系统的建立,需要大量的地理空间位置数据支撑。但现有的地址数据库中保存这大量与地理空间位置相关的非空间数据(即自然语言描述的地址信息),这些非空间数据不能准确地转换为空间数据(即空间的地理位置坐标),进而也无法为GIS系统的建立提供支撑。现有技术通常采用地址匹配技术解决上述问题,即建立自然语言描述的地址信息与其空间的地理位置坐标之间的对应关系。具体实现时,首先要将自然语言描述的地址信息匹配到标准地址,然后再根据标准地址的地理位置坐标,确定自然语言描述的地址信息的地理位置坐标。这一过程的难点在于自然语言描述的地址信息与标准地址之间的匹配准确度,目前常用的方案是相似度计算,即计算待匹配地址与标准地址之间的相似度值,相似度值越高,越匹配。但是,在一个城市中常有相近的道路名称(如南京东路和南京西路)、相近的建筑名称(如万达广场和万科广场)或相近的小区名称(如鼓楼一村和鼓楼新村),这就容易导致相似度值较高的两个地址,实际上是相距甚远的两个地方,进而影响地址匹配技术的匹配准确度。基于此,目前亟需一种地址匹配方法,用于解决现有技术中基于相似度计算的地址匹配技术,容易导致相似度值较高的两个地址,实际上是相距甚远的两个地方,进而影响地址匹配技术的匹配准确度的问题。
技术实现思路
本申请提供了一种地址匹配方法及装置,可用于解决在现有技术中基于相似度计算的地址匹配技术,容易导致相似度值较高的两个地址,实际上是相距甚远的两个地方,进而影响地址匹配技术的匹配准确度的技术问题。第一方面,本申请实施例提供一种地址匹配方法,所述方法包括:获取待匹配地址;采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;将与所述待匹配地址相似度最高的候选地址,确定为目标地址。结合第一方面,在第一方面的一种可实现方式中,从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址,包括:以所述关键地址分词为索引,从所述预设标准地址库中搜索得到初始候选地址;根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词;以所述行政区域地址分词为索引,从所述初始候选地址中搜索得到所述候选地址。结合第一方面,在第一方面的一种可实现方式中,当待匹配地址分词对应多个地址等级时,根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词,包括:针对第一地址等级,如果所述第一地址等级与所述预设的关键地址等级相匹配,则将所述待匹配地址分词确定为所述关键地址分词;所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。结合第一方面,在第一方面的一种可实现方式中,所述预设的地址识别模型通过以下方式得到:根据所述样本地址以及所述样本地址分词,对BERT模型中的分词功能进行训练;根据所述样本地址分词以及所述每个样本分词对应的地址等级,对BERT模型中的序列标注功能进行训练;根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能,得到所述预设的地址识别模型。结合第一方面,在第一方面的一种可实现方式中,将与所述待匹配地址相似度最高的候选地址,确定为目标地址,包括:分别计算各个所述候选地址与所述待匹配地址之间的编辑距离;将编辑距离最小的候选地址确定为所述目标地址。结合第一方面,在第一方面的一种可实现方式中,待匹配地址分词对应的地址等级包括省、市、区、街道办事处、社区、居委会、乡镇、自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元、建筑楼栋、楼层、户室号和其它地址名词中的至少一项。结合第一方面,在第一方面的一种可实现方式中,所述预设的关键地址等级包括自然村、一级道路、二级道路、门牌号、一级小区、二级小区、建筑物、单元和建筑楼栋中的至少一项。第二方面,本申请实施例提供一种地址匹配装置,所述装置包括:获取单元,用于获取待匹配地址;识别单元,用于采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;处理单元,用于根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;以及,从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;以及,将与所述待匹配地址相似度最高的候选地址,确定为目标地址。结合第二方面,在第二方面的一种可实现方式中,所述处理单元具体用于:以所述关键地址分词为索引,从所述预设标准地址库中搜索得到初始候选地址;以及,根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词;以及,以所述行政区域地址分词为索引,从所述初始候选地址中搜索得到所述候选地址。结合第二方面,在第二方面的一种可实现方式中,当待匹配地址分词对应多个地址等级时,所述处理单元具体用于:针对第一地址等级,如果所述第一地址等级与所述预设的关键地址等级相匹配,则将所述待匹配地址分词确定为所述关键地址分词;所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。结合第二方面,在第二方面的一种可实现方式中,所述预设的地址识别模型通过以下方式得到:根据所述样本地址以及所述样本地址分词,对BERT模型中的分词功能进行训练;根据所述样本地址分词以及本文档来自技高网
...

【技术保护点】
1.一种地址匹配方法,其特征在于,所述方法包括:/n获取待匹配地址;/n采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;/n根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;/n从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;/n将与所述待匹配地址相似度最高的候选地址,确定为目标地址。/n

【技术特征摘要】
1.一种地址匹配方法,其特征在于,所述方法包括:
获取待匹配地址;
采用预设的地址识别模型,从所述待匹配地址中识别出多个待匹配地址分词以及每个待匹配地址分词对应的地址等级;所述预设的地址识别模型是根据样本地址、样本地址分词以及样本地址分词对应的地址等级对初始的地址识别模型进行训练后得到的;
根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词;所述预设的关键地址等级是根据标准地址中关键信息对应的地址等级确定的;
从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址;所述预设标准地址库中存储有多个标准地址;
将与所述待匹配地址相似度最高的候选地址,确定为目标地址。


2.根据权利要求1所述的方法,其特征在于,从预设标准地址库中确定出与所述关键地址分词相匹配的候选地址,包括:
以所述关键地址分词为索引,从所述预设标准地址库中搜索得到初始候选地址;
根据预设的行政区域地址等级以及所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的行政区域地址等级相匹配的行政区域地址分词;
以所述行政区域地址分词为索引,从所述初始候选地址中搜索得到所述候选地址。


3.根据权利要求1所述的方法,其特征在于,当待匹配地址分词对应多个地址等级时,根据预设的关键地址等级与所述每个待匹配地址分词对应的地址等级,从所述多个待匹配地址分词中确定出与所述预设的关键地址等级相匹配的关键地址分词,包括:
针对第一地址等级,如果所述第一地址等级与所述预设的关键地址等级相匹配,则将所述待匹配地址分词确定为所述关键地址分词;所述第一地址等级为所述待匹配地址分词对应多个地址等级中的任一地址等级。


4.根据权利要求1所述的方法,其特征在于,所述预设的地址识别模型通过以下方式得到:
根据所述样本地址以及所述样本地址分词,对BERT模型中的分词功能进行训练;
根据所述样本地址分词以及所述每个样本分词对应的地址等级,对BERT模型中的序列标注功能进行训练;
根据训练后的BERT模型中分词功能和训练后的BERT模型中序列标注功能,得到所述预设的地址识别模型。


5.根据权利要求1所述的方法,其特征在于,将与所述待匹配地址相似度最高的...

【专利技术属性】
技术研发人员:张瑞飞郭孟振单培
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1