一种基于召回-排序的地址匹配方法组成比例

技术编号:35174074 阅读:13 留言:0更新日期:2022-10-12 17:39
本发明专利技术适用于地址匹配技术领域,提供一种基于召回

【技术实现步骤摘要】
一种基于召回

排序的地址匹配方法


[0001]本专利技术属于城市治理系统的地址匹配
,尤其涉及一种基于召回

排序的地址匹配方法。

技术介绍

[0002]在城市治理系统中,地址匹配是非常重要的一环。实际业务里工作人员收集到的大多是地址要素不完整且结构多样化的非标准地址。而系统地址库中,存储的是地址要素齐全,结构统一的统一地址。地址匹配,就是从地址库中匹配出与待匹配地址指向同一个目标的统一地址。
[0003]如虚拟非标准地址:“京州市光明区大风厂B

613”,地址库中其对应的虚拟标准地址为:“汉东省京州市光明区光明街道大风社区人民街1号大风厂B栋613”。
[0004]在实际业务中,常见的场景是输入待匹配地址,然后从地址库找出与对应的统一地址。如何从地址库(数百万或数千万地址)中匹配出与其相似度最高的同一地址,是急需解决的问题。如果将地址库中每一个统一地址与待匹配地址使用专利描述的方法做匹配,地址库中的地址往往有上百万上千万条数据,时间开销将非常大。
[0005]现有的地址匹配方法主要分2类。
[0006]第一类是基于规则的地址匹配方法。这类方法依据文本地址特性和领域专家的专业知识构造匹配规则,然后基于匹配规则判断地址对(地址对是指一个非标准地址和一个统一地址组成的地址对)是否匹配。如基于关键词搜索的地址匹配方法,基于编辑距离的地址匹配方法。这类方法直接构造规则进行地址匹配,无需事先搜集训练样本,因此匹配速度非常快,成本低,但对结构复杂多样的文本地址效果差,且由于规则是固定的,因此泛化性也非常差。
[0007]比如,基于关键词搜索的地址匹配方法,输入的关键词为“京州吕州路”,因为此类方法只会识别目标地址是否含有这五个字,对于“京州市吕州路
”ꢀ
和“吕州市京州路”可能会判断为同一地址。
[0008]再比如,基于编辑距离的地址匹配方法。虚拟地址对1[“大风厂2栋C单元1204”,
ꢀ“
京州市光明区光明社区大风厂2栋C单元1204”]和虚拟地址对2[”京州市光明区光明社区大风厂2栋C单元1305”,
ꢀ“
京州市光明区光明社区大风厂2栋C单元1204”],因为地址对1中地址之间的相同字比地址对2中的少,基于编辑距离的地址匹配方法会认为地址对2的相似度会高于地址对1,但其实地址对1相似度应该更高。
[0009]第二类是基于样本训练的地址匹配方法。这类方法使用收集和构造的训练样本集训练算法或模型,然后基于训练好的算法或模型做地址匹配。如基于文本向量相似度的地址匹配方法、基于深度学习的地址匹配方法等。这类方法需要事先搜集训练用的地址样本,因此人工成本高,但对复杂多样的文本效果好,泛化性也较好。
[0010]基于样本训练的地址匹配方法在收集的训练样本时,需要正样本(即待匹配地址与统一地址指向同一目标)和负样本(即待匹配地址与统一地址指向不同的目标)。但在实
际业务场景中,地址的正样本较多,但负样本几乎没有。如果使用样本不均衡的训练集(如绝大多数都是正样本或绝大多数都是负样本),基于样本训练的地址匹配方法效果就会很差。

技术实现思路

[0011]鉴于上述问题,本专利技术的目的在于提供一种基于召回

排序的地址匹配方法,旨在解决现有样本训练的地址匹配方法使用样本不均衡、匹配效果较差的技术问题。
[0012]本专利技术采用如下技术方案:所述基于召回

排序的地址匹配方法,包括下述步骤:步骤S1、收集历史样本数据,生成包含正样本和负样本的训练样本集;步骤S2、使用所述训练样本集,训练基于BERT和ESIM的地址匹配模型;步骤S3、根据当前输入的待匹配地址,输入至训练好的地址匹配模型,输出匹配的统一地址。
[0013]进一步的,所述训练样本集的样本格式为[待匹配地址,统一地址,标记],所述步骤S1具体过程如下:S11、输入历史样本数据集;S12、根据历史样本数据集中的每条历史样本,模糊查询ES统一地址库;S13、如果查询结果为空值,则只生成正样本,正样本的格式为[待匹配地址,统一地址,1];S14、如果查询结果不为空值,则返回相似度最高的前K个统一地址并与历史样本中的统一地址分别比对,判断是否完全一致;S15、若不存在完全一致的统一地址,则同样只生成正样本;S16、若存在完全一致的统一地址,则生成一条正样本,同时对于每条不一致的统一地址,对应生成一条负样本,负样本的格式为[待匹配地址,统一地址,0],共计生成一条正样本和K

1条负样本;S17、收集所有由历史样本生成的正样本和负样本,作为训练样本集。
[0014]进一步的,步骤S14中,如果查询结果少于K个,则返回所有查询结果;如果查询结果多于K个,则返回查询结果的前K个。
[0015]进一步的,所述步骤S2具体包括:S21、将训练样本集按比例分为训练样本和验证样本;S22、遍历训练样本,将训练样本输入地址匹配模型进行地址匹配推断,得到训练样本的匹配结果;S23、根据匹配结果与标记数值是否一致计算损失值,然后使用梯度下降法修改模型参数,减少损失值;S24、对训练样本多轮遍历,每完成一次遍历,使用验证样本验证地址匹配模型的匹配正确率,对于每条验证样本,如果匹配结果大于设置阈值,则输出的匹配结果为1,否则输出的匹配结果为0;如果输出的匹配结果与标记数值一致,则表示匹配正确,否则为匹配错误;S25、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型。
[0016]进一步的,步骤S22中,地址匹配模型的地址匹配推断包括地址召回阶段和地址排序阶段;其中地址召回阶段过程如下:221、对于待匹配地址,使用模糊查询ES统一地址库召回相似度最高的前K个统一地址,且每条返回的统一地址与待匹配地址组成待匹配地址对,作为召回结果;其中如果返回为空,则直接输出空值,并显示匹配失败,结束地址匹配推断;其中地址排序阶段过程如下:222、将每条待匹配地址对使用BERT预处理模型处理获取地址词向量,包括待匹配地址向量和统一地址向量;223、将地址词向量输入至ESIM模型得到待匹配地址对的相似度;224、根据相似度对统一地址排序,并输出相似度最大的统一地址。
[0017]进一步的,步骤222的具体过程如下:2221、对于每一个待匹配地址对,将其中的待匹配地址以及统一地址均分割成字,得到待匹配地址字列表和统一地址字列表;2222、使用BERT模型的分词器,将待匹配地址字列表和统一地址字列表分别转换为待匹配地址字编码和统一地址字编码;2223、将待匹配地址字编码和统一地址字编码均输入BERT模型,得到待匹配地址向量和统一地址向量。
[0018]进一步的,步骤223的具体过程如下:2231、将匹配地址向量和统一地址向量均输入至第一Bi

LSTM(双向长短期记忆神经网络)神经网络,得到待匹配地址的隐层状态向量与统一地址的隐层状态向量;2232、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于召回

排序的地址匹配方法,其特征在于,所述方法包括下述步骤:步骤S1、收集历史样本数据,生成包含正样本和负样本的训练样本集;步骤S2、使用所述训练样本集,训练基于BERT和ESIM的地址匹配模型;步骤S3、根据当前输入的待匹配地址,输入至训练好的地址匹配模型,输出匹配的统一地址。2.如权利要求1所述基于召回

排序的地址匹配方法,其特征在于,所述训练样本集的样本格式为[待匹配地址,统一地址,标记],所述步骤S1具体过程如下:S11、输入历史样本数据集;S12、根据历史样本数据集中的每条历史样本,模糊查询ES统一地址库;S13、如果查询结果为空值,则只生成正样本,正样本的格式为[待匹配地址,统一地址,1];S14、如果查询结果不为空值,则返回相似度最高的前K个统一地址并与历史样本中的统一地址分别比对,判断是否完全一致;S15、若不存在完全一致的统一地址,则同样只生成正样本;S16、若存在完全一致的统一地址,则生成一条正样本,同时对于每条不一致的统一地址,对应生成一条负样本,负样本的格式为[待匹配地址,统一地址,0],共计生成一条正样本和K

1条负样本;S17、收集所有由历史样本生成的正样本和负样本,作为训练样本集。3.如权利要求2所述基于召回

排序的地址匹配方法,其特征在于,步骤S14中,如果查询结果少于K个,则返回所有查询结果;如果查询结果多于K个,则返回查询结果的前K个。4.如权利要求2所述基于召回

排序的地址匹配方法,其特征在于,所述步骤S2具体包括:S21、将训练样本集按比例分为训练样本和验证样本;S22、遍历训练样本,将训练样本输入地址匹配模型进行地址匹配推断,得到训练样本的匹配结果;S23、根据匹配结果与标记数值是否一致计算损失值,然后使用梯度下降法修改模型参数,减少损失值;S24、对训练样本多轮遍历,每完成一次遍历,使用验证样本验证地址匹配模型的匹配正确率,对于每条验证样本,如果匹配结果大于设置阈值,则输出的匹配结果为1,否则输出的匹配结果为0;如果输出的匹配结果与标记数值一致,则表示匹配正确,否则为匹配错误;S25、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型。5.如权利要求3所述基于召回

排序的地址匹配方法,其特征在于,步骤S22中,地址匹配模型的地址匹配推断包括地址召回阶段和地址排序阶段;其中地址召回阶段过程如下:221、对于待匹配地址,使用模糊查询ES统一地址库召回相似度最高的前K个统一地址,且每条返回的统一地址与待匹配地址组成待匹配地址对,作为召回结果;其中如果返回为空,则直接...

【专利技术属性】
技术研发人员:陈胜鹏杨伊态李成涛付卓李颖许继伟王敬佩
申请(专利权)人:吉奥时空信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1