基于多任务联合学习与地址层级结构知识的地址匹配方法组成比例

技术编号:27743521 阅读:15 留言:0更新日期:2021-03-19 13:37
本发明专利技术涉及一种基于多任务联合学习与地址层级结构知识的地址匹配方法,具体包括如下步骤:S1:输入地址对;S2:地址对进入共享地址特征抽取网络;地址对进入地址要素标注网络,经标注后得到第一分词结果,第一分词结果进入地址要素识别网络;S3:共享地址特征经进入地址要素识别网络,经分词后,得到第二分词结果,第二分词结果与第一分词结果比对;用于判断第二分词结果是否符合第一分词结果和地址要素层级顺序,若不符合,重新调整共享地址特征;S4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;S5:输出匹配结果。本发明专利技术将地址层级要素识别任务与地址匹配任务联合起来学习,从而提升模型的性能。

【技术实现步骤摘要】
基于多任务联合学习与地址层级结构知识的地址匹配方法
本专利技术涉及基于多任务联合学习与地址层级结构知识的地址匹配方法。
技术介绍
地址匹配是将需要查询的非结构化的地址与数据库中标准的地址进行匹配,以便将随意的地址转换为标准的地理坐标,从而在地图上进行定位,关键问题是判别两个地址文本是否匹配,涉及到对应的地址层级结构要素的对比。地址要素是指省、市、区、街道等地址实体的名字(如深圳市)。以往的方法主要集中于基于复杂的规则的字符串匹配和基于机器学习或深度学习模型的浅层语义匹配,忽略了地址特有的地址层级结构信息。传统方法通常基于逐个字符来判别字符串相似性,如使用欧式距离与余弦距离衡量地址匹配程度,有时为了考虑地址层级结构的关系,需要人工设计复杂的规则去识别地址的层级要素,从而提高地址匹配的精度。最近虽然使用了机器学习方法,但只提取了地址的浅层语义,有些漏掉了其真实的含义,对于那些字符重复率高但实际意义不同的地址对很容易判断错误。比如“深圳市南山区南山街道向南村六坊24号501”与“深圳市南山区南山街道向南社区0150号”会被误判成匹配的地址。现有的方法主要分为两种,一是基于人工规则的匹配方式,部分考虑了地址层级结构,但是规则的设计耗费了大量人力物力,而且只适用于特定的情况,精度较低,另一种是基于机器学习与深度学习的方式,虽然一定程度上克服了人工设计规则,但是都忽略了地址层级结构信息。最近随着深度学习与自然语言处理的快速发展,越来越多的方法被用于地理学科。深度学习是一种端到端的处理方法,因此极大程度地缓解了人工设计规则的问题。深度学习模型可以自动捕获有意义且深层次的语义特征,因此一些端到端的方法被提出来去判断字符串相似性。如2020年林玥等人使用增强型顺序推理深度学习模型ESIM(EnhancedLSTMforLanguageInference,用于语言推理的增强型LSTM)从局部和整体推断地址是否匹配,并通过实验证明这是一种判断地址匹配的有效方法,然而他们忽略了如何使模型学习到地址层级信息。
技术实现思路
本专利技术的目的是提供一种基于多任务联合学习与地址层级结构知识的地址匹配方法,能使模型学习到地址层级信息,本专利技术从深度学习中的多任务学习的角度出发,仿照人类判别地址匹配的过程,将地址要素识别任务与地址匹配任务联合起来学习,同时把地址层级结构知识融入到神经网络中进行训练,从而提升模型的性能。为达到上述目的而采用了一种基于多任务联合学习与地址层级结构知识的地址匹配方法,具体包括如下步骤:S1:输入地址对;S2:所述地址对进入共享地址特征抽取网络作为共享地址特征;所述地址对进入基于分词特征的地址要素标注网络,所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果,所述第一分词结果进入地址要素识别网络;S3:所述共享地址特征经抽取进入所述地址要素识别网络,经所述地址要素识别网络分词后,得到第二分词结果,所述第二分词结果在所述地址要素识别网络中,与所述第一分词结果比对;用于判断第二分词结果是否符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序,若不符合,重新调整共享地址特征抽取网络中的共享地址特征,直至抽取的共享地址特征经所述地址要素识别网络分词后,符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序;S4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;S5:输出匹配结果。作为本专利技术基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,所述先验的地址层级结构知识中的地址要素层级顺序包括:地址要素所描述的行政区域按所属级别由大到小排列,如:省位于市区之前,市区位于街道之前。作为本专利技术基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,所述地址匹配网络结构为全连接层和Relu激活函数,用于判断输入的地址对是否表示同一地理位置。作为本专利技术基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,所述基于分词特征的地址要素标注网络的训练方式为:S2.1:对已有的带有地址要素标注的语料进行数据增强,增强方法为,按照5%-10%的比例随机删除表示省市区的地址要素,按照10%-15%的比例删除“省”、“市”、“区”、“街道”、“社区”、“村”字符;S2.2:使用jieba分词工具对语料中的地址进行分词,将分词信息进行编码,其编码方式如下公式:其中,x为当前词w中的某一个字;将分词后的编码信息映射为向量,并与Word2Vec算法中Skip-gram模型训练的地址对的词向量进行拼接,拼接后输入地址要素识别网络。S2.3,使用增强后的语料和拼接后的向量训练地址要素标注网络,所述地址要素标注网络为BiLSTM-CRF深度学习模型,然后把训练好的地址要素标注网络用于地址对的地址要素标注。作为本专利技术基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,共享地址特征抽取网络抽取共享地址特征的步骤如下:S3.1:使用RCNN中的Bi-LSTM来分别提取地址对中当前地址要素的上下文信息,将当前地址要素上文的地址要素、下文的地址要素以及自身结合起来作为当前地址要素的表示;S3.2:使用RCNN中的最大池化操作找到地址对中潜在语义信息,然后经过全连接层,得到共享地址特征。作为本专利技术基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,基于地址层级结构知识的地址要素识别网络识别方法如下:S4.1:先验的地址层级结构知识编码方法如下:其中,表示当前模型预测值与损失值之间的关系;表示地址中所识别出的地址要素个数,表示第个地址要素的预测标签值;当预测的地址要素的层级顺序不符合先验的地址层级结构知识中的地址要素层级顺序的逻辑时,损失值就会增加;S4.2:使用全连接层进一步提取与地址要素相关的特征,并结合CRF层进行地址要素识别。作为本专利技术基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,地址匹配网络训练方式如下:S4.3:对共享地址特征抽取网络中的共享地址特征,使用全连接层和Relu激活函数进行地址匹配二分类。作为本专利技术基于多任务联合学习与地址层级结构知识的地址匹配方法进一步的改进,共享地址特征抽取网络包括:循环结构层,其接受上层输入的地址特征;池化层,其接受循环结构层转换的地址特征;特征提取层,其接受池化层输入的地址特征,并转换为可抽取的地址特征,并抽取至地址匹配网络和地址要素识别网络。本专利技术提出基于地址层级结构知识与地址层级结构要素识别的多任务学习方法来提升地址匹配的性能。首先训练出一个地址层级结构要素识别的预训练模型,识别出地址的层级结构要素,然后将地址层级结构要素识别任务与地址匹配判别任务进行联合学习。另外,本专利技术将外部的地址层级结构知识融入到神经网络中,使模型更好地学习到地址层级本文档来自技高网
...

【技术保护点】
1.一种基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,具体包括如下步骤:/nS1:输入地址对;/nS2:所述地址对进入共享地址特征抽取网络作为共享地址特征;所述地址对进入基于分词特征的地址要素标注网络,所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果,所述第一分词结果进入地址要素识别网络;/nS3:所述共享地址特征经抽取进入所述地址要素识别网络,经所述地址要素识别网络分词后,得到第二分词结果,所述第二分词结果在所述地址要素识别网络中,与所述第一分词结果比对;用于判断第二分词结果是否符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序,若不符合,重新调整共享地址特征抽取网络中的共享地址特征,直至抽取的共享地址特征经所述地址要素识别网络分词后,符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序;/nS4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;/nS5:输出匹配结果。/n

【技术特征摘要】
1.一种基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,具体包括如下步骤:
S1:输入地址对;
S2:所述地址对进入共享地址特征抽取网络作为共享地址特征;所述地址对进入基于分词特征的地址要素标注网络,所述地址对经基于分词特征的地址要素标注网络标注后得到第一分词结果,所述第一分词结果进入地址要素识别网络;
S3:所述共享地址特征经抽取进入所述地址要素识别网络,经所述地址要素识别网络分词后,得到第二分词结果,所述第二分词结果在所述地址要素识别网络中,与所述第一分词结果比对;用于判断第二分词结果是否符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序,若不符合,重新调整共享地址特征抽取网络中的共享地址特征,直至抽取的共享地址特征经所述地址要素识别网络分词后,符合第一分词结果和先验的地址层级结构知识中的地址要素层级顺序;
S4:调整后的共享地址特征进入地址匹配网络,用于判断输入的地址对是否匹配;
S5:输出匹配结果。


2.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,所述先验的地址层级结构知识中的地址要素层级顺序包括:地址要素所描述的行政区域按所属级别由大到小排列。


3.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,所述地址匹配网络结构为全连接层和Relu激活函数,用于判断输入的地址对是否表示同一地理位置。


4.按照权利要求1所述的基于多任务联合学习与地址层级结构知识的地址匹配方法,其特征是,所述基于分词特征的地址要素标注网络的训练方式为:
S2.1:对已有的带有地址要素标注的语料进行数据增强,增强方法为,按照5%-10%的比例随机删除表示省市区的地址要素,按照10%-15%的比例删除“省”、“市”、“区”、“街道”、“社区”、“村”字符;
S2.2:使用jieba分词工具对语料中的地址进行分词,将分词信息进行编码,其编码方式如下公式:



其中,x为当前词w中的某一个字;将分词后的编码信息映射为向量,并与Word2Vec算法中Skip-...

【专利技术属性】
技术研发人员:毛星亮李芳芳路毅恒徐雪松
申请(专利权)人:湖南工商大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1