基于地址结构化标签体系的地址匹配方法、系统和存储介质技术方案

技术编号:37120739 阅读:16 留言:0更新日期:2023-04-01 05:16
本发明专利技术公开了基于地址结构化标签体系的地址匹配方法、系统和存储介质。该方法包括:按照预设地址结构化标签体系,将查询请求包含的地址信息解析成包含主点成分标签的拆分数据;其中,所述主点成分为小于等于社区或村级别的地址;用所述拆分数据在数据库检索,针对所述拆分数据从后向前校验,进行召回检索,如命中,则命中的地址数据为匹配结果;如召回检索未命中,当所述拆分数据中的成分信息为非主点成分时,将成分信息从当前的拆分数据中移除。对拆分数据从后向前校验,进行召回检索;检索不命中时将非主点成分移除,提高匹配度。客观上对用户输入的地址信息进行规范,让召回检索匹配上的位置更准确或更清晰。上的位置更准确或更清晰。上的位置更准确或更清晰。

【技术实现步骤摘要】
基于地址结构化标签体系的地址匹配方法、系统和存储介质


[0001]本专利技术涉及互联网运输领域,尤其涉及基于地址结构化标签体系的地址匹配方法、系统和存储介质。

技术介绍

[0002]地址作为不可或缺的基础地理信息和社会公共信息,是各类社会信息关联的重要桥梁,在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。中文地址是由连续的字符串组成,能够帮助人们描述具体的地理位置。完整地址描述应该包括国家、省、市、区县、街道、乡村、道路、门牌号码、局部区域、楼址、楼栋号、楼层号和房间号等。一个有效的中文地址应该是唯一的,能够快速标识并定位某一地理实体位置。地址作为现代社会发展过程中所必需的地理空间数据资源和战略性基础信息资源,已经成为智慧城市中时空基础框架的重要组成部分,也是社会大数据组织、关联与共享应用的桥梁。
[0003]在货运场景,从用户端收集的地址信息,可能有各种表述,存在不规范性,如果针对用户输入的地址信息进行定位,可能导致位置不准确或不清晰的问题。

技术实现思路

[0004]本专利技术主要解决针对从用户端收集的地址不够规范,导致位置不准确或不清晰的技术问题,提供基于地址结构化标签体系的地址匹配方法、系统和存储介质。
[0005]为解决上述技术问题,本专利技术采用的一个技术方案是:提供基于地址结构化标签体系的地址匹配方法,所述方法包括:
[0006]步骤1、按照预设地址结构化标签体系,将查询请求包含的地址信息解析成包含主点成分标签的拆分数据;其中,所述主点成分为小于等于社区或村级别的地址;
[0007]步骤2、用所述拆分数据在数据库检索,针对所述拆分数据从后向前校验,进行召回检索,如命中,则命中的地址数据为匹配结果;如召回检索未命中,当所述拆分数据中的成分信息为非主点成分时,将成分信息从当前的拆分数据中移除。
[0008]可选地,所述用所述拆分数据在数据库检索,针对所述拆分数据从后向前校验,进行召回检索,如命中,则命中的地址数据为匹配结果的步骤具体包括:
[0009]步骤21、主点匹配预测模块将基于所述查询请求解析的所述拆分数据和召回检索中的任一条地址数据代表的位置计算相似度,遍历召回检索的返回列表,选取达到相似度阈值且相似度最高的地址数据作为所述匹配结果返回。
[0010]可选地,所述步骤21、主点匹配预测模块将基于所述查询请求解析的所述拆分数据和召回检索中的任一条地址数据代表的位置计算相似度,遍历召回检索的返回列表,选取达到相似度阈值且相似度最高的地址数据作为所述匹配结果返回的步骤具体包括:
[0011]步骤211、将基于所述查询请求解析的所述拆分数据和召回检索的返回列表按照规范化后的地址进行相似度计算,得到相似度得分;
[0012]步骤212、当所述相似度得分大于相似度阈值时,则进入候选结果列表;反之,则跳
过此地址数据;
[0013]步骤213、执行步骤211直到遍历当前召回检索的所有地址数据;
[0014]步骤214、如所述候选结果列表为空,则结束;如所述候选结果列表不为空,则选取相似度最高的地址数据作为所述匹配结果返回。
[0015]可选地,所述如召回检索未命中,当所述拆分数据中的成分信息为非主点成分时,将成分信息从当前的拆分数据中移除的召回成分对齐步骤具体包括:
[0016]步骤221、召回成分对齐模块在召回检索未命中时,将所述拆分数据的主点成分进一步进行主点拆分,并将最后一层的非主点成分信息从所述拆分数据中移除。
[0017]可选地,所述步骤221、召回检索成分对齐模块在召回检索未命中,将所述拆分数据的主点成分进一步进行主点拆分,并将最后一层的非主点成分信息从所述拆分数据中移除之后,所述方法还包括:
[0018]步骤222、对召回检索中的任一条地址数据的地址信息进行解析,解析成包含主点成分标签的召回拆分数据,得到召回返回列表,所述召回返回列表为包括成分名称和成分标签的列表;
[0019]步骤223、针对所述召回返回列表从后向前校验,如果成分标签在所述召回返回列表中未命中时,执行步骤224,反之,执行步骤225;
[0020]步骤224:将非主点成分信息从所述召回返回列表中移除,执行步骤223;当列表为空时,终止;
[0021]步骤225、当成分为主点成分时,判断该主点成分是否和所述查询请求包含的地址信息解析成的主点成分标签的一致,如果一致,保留成分信息,并根据成分信息更新所述查询请求的地址和其主点成分,终止;如果不一致,则执行步骤224;
[0022]步骤226、遍历所有召回返回列表中的地址数据,即可得到主点拆分后的召回主点列表。
[0023]可选地,所述步骤226:遍历所有召回返回列表中的地址数据,即可得到主点拆分后的召回主点列表之后,所述方法还包括:
[0024]步骤23、主点生成预测模块将基于所述查询请求解析的所述拆分数据和主点拆分后检索得到的所述召回主点列表中的任一条地址数据代表的位置计算相似度,遍历召回检索的召回主点列表,选取达到相似度阈值且相似度最高的地址数据作为所述匹配结果返回。
[0025]可选地,所述步骤23、的步骤具体包括:
[0026]步骤231、将基于所述查询请求解析的所述拆分数据和召回主点列表按照规范化后的地址进行相似度计算,得到相似度得分;
[0027]步骤232、当所述相似度得分大于相似度阈值时,则进入候选结果列表;反之,则跳过此地址数据;
[0028]步骤233、执行步骤231直到遍历当前召回主点列表的所有地址数据;
[0029]步骤234、如所述候选结果列表为空,则结束;如所述候选结果列表不为空,则执行步骤235;
[0030]步骤235、选取相似度最高的地址数据作为所述匹配结果返回;如果原始查询请求解析的拆分数据的最后一层包含的是原始主点成分,则选取和所述原始主点成分相似度最
高的地址数据作为所述匹配结果进行返回;如果原始查询请求解析的拆分数据的最后一层包含原始子点成分,则选取和所述原始子点成分相似度最高的地址数据作为所述匹配结果进行返回;其中,所述子点成分代表的位置覆盖区域小于所述主点成分的。
[0031]可选地,所述方法还包括:
[0032]当所述拆分数据的主点成分为多个时,在以下三种情况的任一种达到时,终止步骤:
[0033]第一种:根据步骤235的主点生成预测模块返回所述匹配结果时;
[0034]第二种:根据步骤23的主点生成预测模块未选取达到相似度阈值且相似度最高的地址数据,但是将所述拆分数据的主点成分进一步进行主点拆分后的主点成分为道路时;
[0035]第三种:根据步骤221的召回检索成分对齐模块在召回检索未命中,将所述拆分数据的主点成分进一步主点拆分的次数达到上限时。
[0036]为解决上述技术问题,本专利技术采用的另一个技术方案是:提供基于地址结构化标签体系的地址匹配系统,其特征在于,所述系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于地址结构化标签体系的地址匹配方法,其特征在于,所述方法包括:步骤1、按照预设地址结构化标签体系,将查询请求包含的地址信息解析成包含主点成分标签的拆分数据;其中,所述主点成分为小于等于社区或村级别的地址;步骤2、用所述拆分数据在数据库检索,针对所述拆分数据从后向前校验,进行召回检索,如命中,则命中的地址数据为匹配结果;如召回检索未命中,当所述拆分数据中的成分信息为非主点成分时,将成分信息从当前的拆分数据中移除。2.根据权利要求1所述的方法,其特征在于,所述用所述拆分数据在数据库检索,针对所述拆分数据从后向前校验,进行召回检索,如命中,则命中的地址数据为匹配结果的步骤具体包括:步骤21、主点匹配预测模块将基于所述查询请求解析的所述拆分数据和召回检索中的任一条地址数据代表的位置计算相似度,遍历召回检索的返回列表,选取达到相似度阈值且相似度最高的地址数据作为所述匹配结果返回。3.根据权利要求2所述的方法,其特征在于,所述步骤21、主点匹配预测模块将基于所述查询请求解析的所述拆分数据和召回检索中的任一条地址数据代表的位置计算相似度,遍历召回检索的返回列表,选取达到相似度阈值且相似度最高的地址数据作为所述匹配结果返回的步骤具体包括:步骤211、将基于所述查询请求解析的所述拆分数据和召回检索的返回列表按照规范化后的地址进行相似度计算,得到相似度得分;步骤212、当所述相似度得分大于相似度阈值时,则进入候选结果列表;反之,则跳过此地址数据;步骤213、执行步骤211直到遍历当前召回检索的所有地址数据;步骤214、如所述候选结果列表为空,则结束;如所述候选结果列表不为空,则选取相似度最高的地址数据作为所述匹配结果返回。4.根据权利要求3所述的方法,其特征在于,所述如召回检索未命中,当所述拆分数据中的成分信息为非主点成分时,将成分信息从当前的拆分数据中移除的召回成分对齐步骤具体包括:步骤221、召回成分对齐模块在召回检索未命中时,将所述拆分数据的主点成分进一步进行主点拆分,并将最后一层的非主点成分信息从所述拆分数据中移除。5.根据权利要求4所述的方法,其特征在于,所述步骤221、召回检索成分对齐模块在召回检索未命中,将所述拆分数据的主点成分进一步进行主点拆分,并将最后一层的非主点成分信息从所述拆分数据中移除之后,所述方法还包括:步骤222、对召回检索中的任一条地址数据的地址信息进行解析,解析成包含主点成分标签的召回拆分数据,得到召回返回列表,所述召回返回列表为包括成分名称和成分标签的列表;步骤223、针对所述召回返回列表从后向前校验,如果成分标签在所述召回返回列表中未命中时,执行步骤224,反之,执行步骤225;步骤224:将非主点成分信息从所述召回返回列表中移除,执行步骤223;当列表为空时,终止;步骤225、当成分为主点成分时,判断该主点成分是否和所述查询请求包含的地址信息
解析成的主点成分标签的一致,如果一致,保...

【专利技术属性】
技术研发人员:王新乐武东旭强成仓石立臣
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1