地址识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:31228579 阅读:26 留言:0更新日期:2021-12-08 09:40
本发明专利技术提出一种地址识别方法、装置、计算机设备及存储介质,其中,方法包括:获取多个地址文本;根据各地址文本对应的地理位置,和/或,各地址文本所属的文本类型,对多个地址文本进行分组;对每个地址文本识别包含编码的第一文本部分以及除第一文本部分以外的第二文本部分;对同一分组内的至少两地址文本,采用语义相似度模型识别第二文本部分,以得到上述至少两地址文本之间第二文本部分的语义相似度;根据上述至少两地址文本的语义相似度,和/或第一文本部分的文本匹配性,识别上述至少两地址文本是否属于相同地址。由此,通过对地址文本进行分组,在分组内对地址文本进行地址匹配或地址对齐,可以提升地址匹配或地址对齐的准确性。准确性。准确性。

【技术实现步骤摘要】
地址识别方法、装置、计算机设备及存储介质


[0001]本专利技术涉及计算机领域,尤其涉及一种地址识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]不同数据源、业务源或时间产生地址文本时,同一个地址对象可能会有多种文本表述,比如“北京通州区马驹桥镇星悦国际8号楼888室”和“北京市通州区兴贸三街星悦国际小区8栋888”两个地址文本表示的为同一个地址,将这两个地址文本识别为同一地址并赋予对应地址ID的过程,称为地址对齐或地址匹配。将地址对齐后,可以融合多方数据源,以实现对地址上的人、事、物进行分析。
[0003]因此,如何实现将不同的地址文本识别为同一地址是非常重要的。

技术实现思路

[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]本专利技术提出一种地址识别方法、装置、计算机设备及存储介质,以实现通过对地址文本进行分组,在分组内对地址文本进行地址匹配或地址对齐,可以提升地址匹配或地址对齐的准确性,即可以提升同一地址识别结果的准确性。
[0006]本专利技术第一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地址识别方法,其特征在于,包括以下步骤:获取多个地址文本;根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组;对每个所述地址文本识别包含编码的第一文本部分,以及除所述第一文本部分以外的第二文本部分;对同一分组内的至少两地址文本,采用语义相似度模型识别所述第二文本部分,以得到所述至少两地址文本之间所述第二文本部分的语义相似度;根据所述至少两地址文本的所述语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址。2.根据权利要求1所述的地址识别方法,其特征在于,所述根据所述至少两地址文本所述第二文本部分的语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址,包括:在所述至少两地址文本包含所述第一文本部分的情况下,若所述至少两地址文本中的第一文本部分匹配,且所述语义相似度大于第一阈值,将所述至少两地址文本识别为相同地址;在所述至少两地址文本未包含所述第一文本部分的情况下,若所述语义相似度大于第二阈值,将所述至少两地址文本识别为相同地址;其中,所述第二阈值大于所述第一阈值。3.根据权利要求1所述的地址识别方法,其特征在于,所述语义相似度识别模型包括通用识别模型和分组识别模型;所述对同一分组内的至少两地址文本,采用语义相似度模型识别所述第二文本部分,以得到所述至少两地址文本之间所述第二文本部分的语义相似度,包括:将所述至少两地址文本的第二文本部分输入所述通用识别模型,以得到输出的第一相似度;将所述至少两地址文本的所述第二文本部分输入所属分组对应的分组识别模型,以得到输出的第二相似度;根据所述第一相似度和所述第二相似度,确定所述语义相似度。4.根据权利要求3所述的地址识别方法,其特征在于,所述根据所述第一相似度和所述第二相似度,确定所述语义相似度,包括:根据预设的权重,对所述第一相似度和所述第二相似度进行加权,以得到所述语义相似度。5.根据权利要求1

4任一项所述的地址识别方法,其特征在于,所述根据各所述地址文本对应的地理位置,和/或,各所述地址文本所属的文本类型,对所述多个地址文本进行分组,包括:根据各所述地址文本对应的地理位置,从多个设定区域范围中,确定各所述地址文本所属的区域范围;将属于相同区域范围的所述地址文本,划分为同一分组。6.根据权利要求5所述的地址识别方法,其特征在于,所述根据各所述地址文本对应的地理位置,从多个设定区域范围中,确定各所述地址文本所属的区域范围,包括:
对各所述地址文本,将表征地理位置的经纬度信息进行哈希编码;将属于同一地理网格的哈希编码,以及处于所述地址网络边缘的哈希编码,确定处于所述地理网格对应的区域范围;根据各所述哈希编码所处的区域范围,确定各所述地址文本所属的区域范围。7.根据权利要求6所述的地址识别方法,其特征在于,所述根据所述至少两地址文本所述第二文本部分的语义相似度,和/或所述第一文本部分的文本匹配性,识别所述至少两地址文本是否属于相同地址之后,还包括:查询属于至少两目标分组的重复地址文本,以及在所述至少两目标分组中确定与所述重复地址文本属于相同地址的目标地址文本;对所述重复地址文本去重,并将所述至少两目标分组中的所述目标地址文本确定为对应相同地址。8.根据权利要求1

...

【专利技术属性】
技术研发人员:陈国春郑宇张钧波
申请(专利权)人:京东城市北京数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1