基于多任务联合学习与地址层级结构知识的地址匹配方法组成比例

技术编号：27743521 阅读：15 留言：0更新日期：2021-03-19 13:37

本发明专利技术涉及一种基于多任务联合学习与地址层级结构知识的地址匹配方法，具体包括如下步骤：S1：输入地址对；S2：地址对进入共享地址特征抽取网络；地址对进入地址要素标注网络，经标注后得到第一分词结果，第一分词结果进入地址要素识别网络；S3：共享地址特征经进入地址要素识别网络，经分词后，得到第二分词结果，第二分词结果与第一分词结果比对；用于判断第二分词结果是否符合第一分词结果和地址要素层级顺序，若不符合，重新调整共享地址特征；S4：调整后的共享地址特征进入地址匹配网络，用于判断输入的地址对是否匹配；S5：输出匹配结果。本发明专利技术将地址层级要素识别任务与地址匹配任务联合起来学习，从而提升模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于多任务联合学习与地址层级结构知识的地址匹配方法
本专利技术涉及基于多任务联合学习与地址层级结构知识的地址匹配方法。
技术介绍
地址匹配是将需要查询的非结构化的地址与数据库中标准的地址进行匹配，以便将随意的地址转换为标准的地理坐标，从而在地图上进行定位，关键问题是判别两个地址文本是否匹配，涉及到对应的地址层级结构要素的对比。地址要素是指省、市、区、街道等地址实体的名字（如深圳市）。以往的方法主要集中于基于复杂的规则的字符串匹配和基于机器学习或深度学习模型的浅层语义匹配，忽略了地址特有的地址层级结构信息。传统方法通常基于逐个字符来判别字符串相似性，如使用欧式距离与余弦距离衡量地址匹配程度，有时为了考虑地址层级结构的关系，需要人工设计复杂的规则去识别地址的层级要素，从而提高地址匹配的精度。最近虽然使用了机器学习方法，但只提取了地址的浅层语义，有些漏掉了其真实的含义，对于那些字符重复率高但实际意义不同的地址对很容易判断错误。比如“深圳市南山区南山街道向南村六坊24号501”与“深圳市南山区南山街道向南社区0150号”会被误判成匹配的地址。现有的方法主要分为两种，一是基于人工规则的匹配方式，部分考虑了地址层级结构，但是规则的设计耗费了大量人力物力，而且只适用于特定的情况，精度较低，另一种是基于机器学习与深度学习的方式，虽然一定程度上克服了人工设计规则，但是都忽略了地址层级结构信息。最近随着深度学习与自然语言处理的快速发展，越来越多的方法被用于地理学科。深度学习是一种端到端的处理方法，因此极大程度地缓...

【技术保护点】
1.一种基于多任务联合学习与地址层级结构知识的地址匹配方法，其特征是，具体包括如下步骤：/nS1：输入地址对；/nS2：所述地址对进入共享地址特征抽取网络作为共享地址特征；所述地址对进入基于分词特征的地址要素标注网络，所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果，所述第一分词结果进入地址要素识别网络；/nS3：所述共享地址特征经抽取进入所述地址要素识别网络，经所述地址要素识别网络分词后，得到第二分词结果，所述第二分词结果在所述地址要素识别网络中，与所述第一分词结果比对；用于判断第二分词结果是否符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序，若不符合，重新调整共享地址特征抽取网络中的共享地址特征，直至抽取的共享地址特征经所述地址要素识别网络分词后，符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序；/nS4：调整后的共享地址特征进入地址匹配网络，用于判断输入的地址对是否匹配；/nS5：输出匹配结果。/n

【技术特征摘要】
1.一种基于多任务联合学习与地址层级结构知识的地址匹配方法，其特征是，具体包括如下步骤：
S1：输入地址对；
S2：所述地址对进入共享地址特征抽取网络作为共享地址特征；所述地址对进入基于分词特征的地址要素标注网络，所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果，所述第一分词结果进入地址要素识别网络；
S3：所述共享地址特征经抽取进入所述地址要素识别网络，经所述地址要素识别网络分词后，得到第二分词结果，所述第二分词结果在所述地址要素识别网络中，与所述第一分词结果比对；用于判断第二分词结果是否符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序，若不符合，重新调整共享地址特征抽取网络中的共享地址特征，直至抽取的共享地址特征经所述地址要素识别网络分词后，符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序；
S4：调整后的共享地址特征进入地址匹配网络，用于判断输入的地址对是否匹配；
S5：输出匹配结果。

2.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法，其特征是，所述先验的地址层级结构知识中的地址要素层级顺序包括：地址要素所描述的行政区域按所属级别由大到小排列。

3.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法，其特征是，所述地址匹配网络结构为全连接层和Relu激活函数，用于判断输入的地址对是否表示同一地理位置。

4.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法，其特征是，所述基于分词特征的地址要素标注网络的训练方式为：
S2.1：对已有的带有地址要素标注的语料进行数据增强，增强方法为，按照5%-10%的比例随机删除表示省市区的地址要素，按照10%-15%的比例删除“省”、“市”、“区”、“街道”、“社区”、“村”字符；
S2.2：使用jieba分词工具对语料中的地址进行分词，将分词信息进行编码，其编码方式如下公式：

其中，x为当前词w中的某一个字；将分词后的编码信息映射为向量，并与Word2Vec算法中Skip-...

【专利技术属性】
技术研发人员：毛星亮，李芳芳，路毅恒，徐雪松，
申请(专利权)人：湖南工商大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人