一种地址文本归一化匹配方法及装置制造方法及图纸

技术编号:36650775 阅读:28 留言:0更新日期:2023-02-18 13:13
一种地址文本归一化匹配方法及装置,涉及数据处理技术领域和算法匹配领域,包括:获取待入库地址数据,待入库地址数据的模型训练;模型识别待入库地址数据的关键信息;通过关键信息对待入库地址数据进行预处理和数据入库,得到入库数据。在进行地址文本归一化匹配时获取待处理地址数据;根据预设的入库数据对待处理地址数据进行匹配处理得到初步候选地址数据;对初步候选地址数据进行模糊匹配处理得到目标候选地址数据;获取目标候选地址数据的候选地址后信息,获取待处理地址数据的待处理后信息;根据候选地址后信息和待处理后信息进行分割匹配处理,得到归一化匹配地址,能够对非标准的地址文本进行归一化和标准化处理,准确度高。度高。度高。

【技术实现步骤摘要】
一种地址文本归一化匹配方法及装置


[0001]本申请涉及数据处理
和算法匹配领域,具体而言,涉及一种地址文本归一化匹配方法及装置。

技术介绍

[0002]现在通常使用文字识别方法的方法,采用语义相似度的方法来计算地址间的匹配度,然而,在实践中发现,在日常生活中,人们对于地址的描述通常是模糊且非标准化的,例如,繁简混用、中文与阿拉伯字符混用、表述方式不规范、缺少部分行政区划等,同一个地名存在多种不同的表述习惯,从而导致识别误差的出现。可见,现有的地址文本归一化匹配方法,准确性低。

技术实现思路

[0003]本申请实施例的目的在于提供一种地址文本归一化匹配方法及装置,能够对非标准的地址文本进行归一化和标准化处理,准确度高。
[0004]本申请实施例第一方面提供了一种地址文本归一化匹配方法,包括:
[0005]获取待处理地址数据;
[0006]根据预设的入库数据对所述待处理地址数据进行匹配处理,得到初步候选地址数据;
[0007]对所述初步候选地址数据进行模糊匹配处理,得到目标候选地址数据;
[0008]获取所述目标候选地址数据的候选地址后信息,并获取所述待处理地址数据的待处理后信息;
[0009]根据所述候选地址后信息和所述待处理后信息进行分割匹配处理,得到归一化匹配地址。
[0010]在上述实现过程中,先获取待处理地址数据;再根据预设的入库数据对待处理地址数据进行匹配处理,得到初步候选地址数据;并对初步候选地址数据进行模糊匹配处理,得到目标候选地址数据;进一步地,获取目标候选地址数据的候选地址后信息,并获取待处理地址数据的待处理后信息;最后根据候选地址后信息和待处理后信息进行分割匹配处理,得到归一化匹配地址,能够对非标准的地址文本进行归一化和标准化处理,准确度高。
[0011]进一步地,在所述获取待处理地址数据之前,所述方法还包括:
[0012]获取待入库地址数据;
[0013]对所述待入库地址数据进行数据清洗处理,得到初处理地址数据;
[0014]对预设的初始预测模型进行训练,得到训练好的地址预测模型;
[0015]通过到训练好的地址预测模型对初处理地址数据进行预测处理,得到所述初处理地址数据的关键信息;
[0016]根据所述关键信息和所述初处理地址数据,获取地址头信息;
[0017]对所述地址头信息进行统一化处理,得到标准地址数据;
[0018]对所述标准地址数据进行入库处理,得到入库数据。
[0019]在上述实现过程中,对标准地址数据进行入库处理,主要是根据需要,将标准地址数据制作成不同格式的文件,即入库数据。能够实现对地址数据关键要素的识别。再通过对所识别的要素和地址进行相应的处理,以及实现地址数据的入库。
[0020]进一步地,所述根据所述关键信息和所述初处理地址数据,获取地址头信息,包括:
[0021]根据所述关键信息,获取所述初处理地址数据中的道路名称信息和门牌号信息;
[0022]根据所述道路名称信息和所述门牌号信息,对所述初处理地址数据进行筛选处理,得到筛选地址数据;
[0023]根据所述道路名称信息和所述门牌号信息,获取所述筛选地址数据的地址头信息,其中,所述地址头信息为所述筛选地址数据中所述道路名称信息和所述门牌号信息之前的地址信息。
[0024]在上述实现过程中,通过所得的关键信息,结合原始的初处理地址数据,获得地址中的道路名称信息和相应的门牌号信息。再通过获取的道路名称信息和相应的门牌号信息,对初处理地址数据进行筛选,去除其中不具备道路名称信息和门牌号信息的地址数据,得到筛选地址数据。然后,对筛选地址数据的道路名称信息和门牌号信息之前的信息进行提取,得到地址头信息。
[0025]进一步地,所述入库数据至少包括道路名称数据、小区建筑地址对应数据以及道路地址对应数据。
[0026]进一步地,所述根据预设的入库数据对所述待处理地址数据进行匹配处理,得到初步候选地址数据,包括:
[0027]通过所述道路名称数据对所述待处理地址数据进行匹配处理,得到所述待处理地址数据的待处理关键信息;
[0028]根据所述小区建筑地址对应数据和所述道路地址对应数据,获取所述待处理关键信息对应的入库地址数据;
[0029]对所述待处理地址数据进行解析处理,得到所述待处理地址数据的社区信息;
[0030]根据所述社区信息和所述入库地址数据,获取初步候选地址数据。
[0031]在上述实现过程中,根据预设的入库数据,能够实现对待处理地址数据的匹配处理,得到初步候选地址数据。
[0032]进一步地,所述对所述初步候选地址数据进行模糊匹配处理,得到目标候选地址数据,包括:
[0033]获取所述初步候选地址数据的候选地址头信息,并获取所述待处理地址数据的待处理头信息;
[0034]对所述候选地址头信息和所述待处理头信息进行最长公共子序列计算处理,得到最匹配所述待处理地址数据的目标候选地址数据。
[0035]在上述实现过程中,通过对候选地址头信息和样本地址头信息进行最长公共子序列计算,能够得到最匹配样本地址的候选地址,即目标候选地址数据,从而实现地址匹配的模糊匹配。
[0036]进一步地,所述根据所述候选地址后信息和所述待处理后信息进行分割匹配处
理,得到归一化匹配地址,包括:
[0037]通过正则算法对所述候选地址后信息和所述待处理后信息进行分割处理,得到分割层级数据;
[0038]根据所述分割层级数据,对所述目标候选地址数据和所述待处理地址数据进行逐层匹配,得到所述待处理地址数据在所述目标候选地址数据中的最大匹配层级信息;
[0039]根据所述最大匹配层级信息确定所述待处理地址数据对应的归一化匹配地址。
[0040]在上述实现过程中,对待处理分割层级数据以及候选分割层级数据进行每一个层级的逐层匹配,得到所述待处理地址数据在所述目标候选地址数据中的最大匹配层级信息。最后可以根据最大匹配层级信息确定待处理地址数据对应的归一化匹配地址,进而实现地址的归一化匹配功能。
[0041]本申请实施例第二方面提供了一种地址文本归一化匹配装置,所述地址文本归一化匹配装置包括:
[0042]第一获取单元,用于获取待处理地址数据;
[0043]第一匹配单元,用于根据预设的入库数据对所述待处理地址数据进行匹配处理,得到初步候选地址数据;
[0044]第二匹配单元,用于对所述初步候选地址数据进行模糊匹配处理,得到目标候选地址数据;
[0045]第二获取单元,用于获取所述目标候选地址数据的候选地址后信息,并获取所述待处理地址数据的待处理后信息;
[0046]分割匹配单元,用于根据所述候选地址后信息和所述待处理后信息进行分割匹配处理,得到归一化匹配地址。
[0047]在上述实现过程中,第一获取单元先获取待处理地址数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址文本归一化匹配方法,其特征在于,包括:获取待处理地址数据;根据预设的入库数据对所述待处理地址数据进行匹配处理,得到初步候选地址数据;对所述初步候选地址数据进行模糊匹配处理,得到目标候选地址数据;获取所述目标候选地址数据的候选地址后信息,并获取所述待处理地址数据的待处理后信息;根据所述候选地址后信息和所述待处理后信息进行分割匹配处理,得到归一化匹配地址。2.根据权利要求1所述的地址文本归一化匹配方法,其特征在于,在所述获取待处理地址数据之前,所述方法还包括:获取待入库地址数据;对所述待入库地址数据进行数据清洗处理,得到初处理地址数据;对预设的初始预测模型进行训练,得到训练好的地址预测模型;通过所述训练好的地址预测模型对初处理地址数据进行预测处理,得到所述初处理地址数据的关键信息;根据所述关键信息和所述初处理地址数据,获取地址头信息;对所述地址头信息进行统一化处理,得到标准地址数据;对所述标准地址数据进行入库处理,得到入库数据。3.根据权利要求2所述的地址文本归一化匹配方法,其特征在于,所述根据所述关键信息和所述初处理地址数据,获取地址头信息,包括:根据所述关键信息,获取所述初处理地址数据中的道路名称信息和门牌号信息;根据所述道路名称信息和所述门牌号信息,对所述初处理地址数据进行筛选处理,得到筛选地址数据;根据所述道路名称信息和所述门牌号信息,获取所述筛选地址数据的地址头信息,其中,所述地址头信息为所述筛选地址数据中所述道路名称信息和所述门牌号信息之前的地址信息。4.根据权利要求3所述的地址文本归一化匹配方法,其特征在于,所述入库数据至少包括道路名称数据、小区建筑地址对应数据以及道路地址对应数据。5.根据权利要求4所述的地址文本归一化匹配方法,其特征在于,所述根据预设的入库数据对所述待处理地址数据进行匹配处理,得到初步候选地址数据,包括:通过所述道路名称数据对所述待处理地址数据进行匹配处理,得到所述待处理地址数据的待处理关键信息;根据所述小区建筑地址对应数据和所述道路地址对应数据,获取所述待处理关键信息对应的入库地址数据;对所述...

【专利技术属性】
技术研发人员:李健铨樊冯飞曹磊李德彦
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1