【技术实现步骤摘要】
一种基于召回
‑
排序的地址匹配方法
[0001]本专利技术属于城市治理系统的地址匹配
,尤其涉及一种基于召回
‑
排序的地址匹配方法。
技术介绍
[0002]在城市治理系统中,地址匹配是非常重要的一环。实际业务里工作人员收集到的大多是地址要素不完整且结构多样化的非标准地址。而系统地址库中,存储的是地址要素齐全,结构统一的统一地址。地址匹配,就是从地址库中匹配出与待匹配地址指向同一个目标的统一地址。
[0003]如虚拟非标准地址:“京州市光明区大风厂B
‑
613”,地址库中其对应的虚拟标准地址为:“汉东省京州市光明区光明街道大风社区人民街1号大风厂B栋613”。
[0004]在实际业务中,常见的场景是输入待匹配地址,然后从地址库找出与对应的统一地址。如何从地址库(数百万或数千万地址)中匹配出与其相似度最高的同一地址,是急需解决的问题。如果将地址库中每一个统一地址与待匹配地址使用专利描述的方法做匹配,地址库中的地址往往有上百万上千万条数据,时间开销将非常大。
[0005]现有的地址匹配方法主要分2类。
[0006]第一类是基于规则的地址匹配方法。这类方法依据文本地址特性和领域专家的专业知识构造匹配规则,然后基于匹配规则判断地址对(地址对是指一个非标准地址和一个统一地址组成的地址对)是否匹配。如基于关键词搜索的地址匹配方法,基于编辑距离的地址匹配方法。这类方法直接构造规则进行地址匹配,无需事先搜集训练样本,因此匹配速度非常快,成本低, ...
【技术保护点】
【技术特征摘要】
1.一种基于召回
‑
排序的地址匹配方法,其特征在于,所述方法包括下述步骤:步骤S1、收集历史样本数据,生成包含正样本和负样本的训练样本集;步骤S2、使用所述训练样本集,训练基于BERT和ESIM的地址匹配模型;步骤S3、根据当前输入的待匹配地址,输入至训练好的地址匹配模型,输出匹配的统一地址。2.如权利要求1所述基于召回
‑
排序的地址匹配方法,其特征在于,所述训练样本集的样本格式为[待匹配地址,统一地址,标记],所述步骤S1具体过程如下:S11、输入历史样本数据集;S12、根据历史样本数据集中的每条历史样本,模糊查询ES统一地址库;S13、如果查询结果为空值,则只生成正样本,正样本的格式为[待匹配地址,统一地址,1];S14、如果查询结果不为空值,则返回相似度最高的前K个统一地址并与历史样本中的统一地址分别比对,判断是否完全一致;S15、若不存在完全一致的统一地址,则同样只生成正样本;S16、若存在完全一致的统一地址,则生成一条正样本,同时对于每条不一致的统一地址,对应生成一条负样本,负样本的格式为[待匹配地址,统一地址,0],共计生成一条正样本和K
‑
1条负样本;S17、收集所有由历史样本生成的正样本和负样本,作为训练样本集。3.如权利要求2所述基于召回
‑
排序的地址匹配方法,其特征在于,步骤S14中,如果查询结果少于K个,则返回所有查询结果;如果查询结果多于K个,则返回查询结果的前K个。4.如权利要求2所述基于召回
‑
排序的地址匹配方法,其特征在于,所述步骤S2具体包括:S21、将训练样本集按比例分为训练样本和验证样本;S22、遍历训练样本,将训练样本输入地址匹配模型进行地址匹配推断,得到训练样本的匹配结果;S23、根据匹配结果与标记数值是否一致计算损失值,然后使用梯度下降法修改模型参数,减少损失值;S24、对训练样本多轮遍历,每完成一次遍历,使用验证样本验证地址匹配模型的匹配正确率,对于每条验证样本,如果匹配结果大于设置阈值,则输出的匹配结果为1,否则输出的匹配结果为0;如果输出的匹配结果与标记数值一致,则表示匹配正确,否则为匹配错误;S25、选择匹配正确率最高的参数版本作为最终训练好的地址匹配模型。5.如权利要求3所述基于召回
‑
排序的地址匹配方法,其特征在于,步骤S22中,地址匹配模型的地址匹配推断包括地址召回阶段和地址排序阶段;其中地址召回阶段过程如下:221、对于待匹配地址,使用模糊查询ES统一地址库召回相似度最高的前K个统一地址,且每条返回的统一地址与待匹配地址组成待匹配地址对,作为召回结果;其中如果返回为空,则直接...
【专利技术属性】
技术研发人员:陈胜鹏,杨伊态,李成涛,付卓,李颖,许继伟,王敬佩,
申请(专利权)人:吉奥时空信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。