地址文本相似度确定方法以及地址搜索方法技术

技术编号:24498761 阅读:174 留言:0更新日期:2020-06-13 04:08
本发明专利技术公开了一种地址文本相似度确定方法以及地址搜索方法,地址文本包括级别从高到低排列的多个地址元素,方法包括:获取待确定相似度的地址文本对;将所述地址文本对输入到预设的地址文本相似度计算模型,以输出所述地址文本对所包括的两个地址文本的相似度。本发明专利技术提高了地址文本相似度计算的准确度。

The method to determine the similarity of address text and the method to search address

【技术实现步骤摘要】
地址文本相似度确定方法以及地址搜索方法
本专利技术涉及人工智能领域,具体涉及一种地址文本相似度确定方法、地址搜索方法以及计算设备。
技术介绍
在某些对地址敏感的行业或部门里,例如公安、快递、物流、电子地图等,其内部通常会维护一份标准的地址库。而在其地址数据的使用场景中常常存在与标准地址库不统一的描述,比如110报警时候的口述地址与公安系统内部的标准化地址就相去甚远。此时需要一种有效且快速的方法能够将非标准的地址文本映射到到标准地址库中的对应或者相近的地址,其中如何判断两段地址文本的相似程度则至关重要。常用的地址文本相似度有如下几种计算方式:1、利用编辑距离计算两段文本的相似程度,此种方式忽略了文本的语义内涵,例如:“阿里巴巴”和“阿里地区”之间的编辑距离与“阿里巴巴”和“阿里妈妈”之间的编辑距离相同,但是从语义上“阿里巴巴”和“阿里妈妈”之间的语义相似程度应该是大于“阿里地区”。2、利用语义相似度计算两段文本之间的相似度,例如word2vec,此种方式适合于所有文本领域,并不单独针对地址文本。在应用到地址文本时,准确度不本文档来自技高网...

【技术保护点】
1.一种地址文本相似度确定方法,所述地址文本包括级别从高到低排列的多个地址元素,所述方法包括:/n获取待确定相似度的地址文本对;/n将所述地址文本对输入到预设的地址文本相似度计算模型,以输出所述地址文本对所包括的两个地址文本的相似度;/n其中,所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对。/n

【技术特征摘要】
1.一种地址文本相似度确定方法,所述地址文本包括级别从高到低排列的多个地址元素,所述方法包括:
获取待确定相似度的地址文本对;
将所述地址文本对输入到预设的地址文本相似度计算模型,以输出所述地址文本对所包括的两个地址文本的相似度;
其中,所述地址文本相似度计算模型基于包括多条训练数据的训练数据集进行训练得到,每条训练数据至少包括第一、二、三地址文本,其中,第一、二地址文本的前n个级别的地址元素相同,构成正样本对,第一、三地址文本的前(n-1)个级别的地址元素相同、且第n级别的地址元素不相同,构成负样本对。


2.如权利要求1所述的方法,其中,所述地址文本相似度计算模型包括词嵌入层、文本编码层和相似度计算层,训练所述地址文本相似度计算模型的步骤包括:
将每条训练数据的第一、二、三地址文本输入到词嵌入层,以得到对应的第一、二、三词向量集;
将第一、二、三词向量集输入到文本编码层,以得到对应的第一、二、三文本向量;
利用相似度计算层计算第一、二文本向量的第一相似度和第一、三文本向量的第二相似度;
根据第一、二相似度调整所述地址文本相似度计算模型的网络参数。


3.如权利要求2所述的方法,其中,所述网络参数包括:词嵌入层的参数和/或文本编码层的参数。


4.如权利要求2所述的方法,其中,第一、二、三词向量集中的各词向量集包括多个词向量,每个词向量与地址文本中的一个地址元素相对应。


5.如权利要求2所述的方法,其中,所述词嵌入层采用Glove模型或者Word2Vec模型。


6.如权利要求2所述的方法,其中,所述第一相似度和第二相似度包括欧氏距离、余弦相似度或者Jaccard系数中的至少一个。


7.如权利要求2所述的方法,其中,所述根据第一、二相似度调整词所述地址文本相似度计算模型的网络参数,包括:
根据第一、二相似度计算损失函数值;
利用反向传播算法调整地址文本相似度计算模型的网络参数,直到损失函数值低于预设值,或者训练次数达到预定次数。


8.如权利要求7所述的方法,其中,所述损失函数值为:
Loss=Margin-(第一相似度-第二相似度)
其中,Loss为损失函数值,Margin为超参数。


9.如权利要求2所述的方法,其中,所述文本编码层包括RNN模型、CNN模型或者DBN模型中的至少一个。


10.一种地址搜索方法,包括:
获取待查询地址文本...

【专利技术属性】
技术研发人员:刘楚谢朋峻郑华飞李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1