地址文本的匹配方法和装置制造方法及图纸

技术编号:19121906 阅读:25 留言:0更新日期:2018-10-10 05:07
本发明专利技术公开了一种地址文本的匹配方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对于待匹配的两个地址文本中的每一地址文本:利用该地址文本含有的地址要素关键词,获取其在所述地址要素关键词对应的地址要素级别的特征词;确定所述两个地址文本在同一地址要素级别的特征词的相似度,根据所述相似度得到所述两个地址文本的匹配度;并在匹配度符合预设的匹配条件时,将所述两个地址文本确定为匹配文本。该实施方式能够实现地址文本是否匹配的高精度判别。

【技术实现步骤摘要】
地址文本的匹配方法和装置
本专利技术涉及计算机
,尤其涉及一种地址文本的匹配方法和装置。
技术介绍
随着物流行业的迅速发展,服务方会积累到海量的用户地址数据,这些地址数据具有极大的挖掘价值和应用价值,而对任意地址数据进行匹配则是其中的关键。由于地址数据表述方式较多、用户书写不规范,所以任意地址数据的匹配具有较大难度。现有技术中,一般通过人工判定、模糊索引匹配、编辑距离匹配、经纬度匹配等方法实现地址数据的匹配。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:1.在面对海量地址数据时,人工判定方法成本高,效率低,无法满足时效要求。2.模糊索引匹配一般只适用于特定环境且其精度较低。3.编辑距离匹配方法精度较低、对地址数据长度敏感,且易被地址数据中的无关信息、重复信息影响。4.经纬度匹配方法由于定位精度有限无法达到精确到户的水平,此外,经纬度为平面信息,该方法无法区分对应同一地面的不同楼层。
技术实现思路
有鉴于此,本专利技术实施例提供一种地址文本的匹配方法和装置,能够通过提取两个地址文本在每一地址要素级别的特征词,并计算特征词的相似度从而判别二者是否匹配,该方法具有较高的判别精度与处理效率。为实现上述目的,根据本专利技术的一个方面,提供了一种地址文本的匹配方法。本专利技术实施例的地址文本的匹配方法包括:对于待匹配的两个地址文本中的每一地址文本:利用该地址文本含有的地址要素关键词,获取其在所述地址要素关键词对应的地址要素级别的特征词;确定所述两个地址文本在同一地址要素级别的特征词的相似度,根据所述相似度得到所述两个地址文本的匹配度;并在匹配度符合预设的匹配条件时,将所述两个地址文本确定为匹配文本。可选地,所述方法进一步包括:在所述利用该地址文本含有的地址要素关键词,获取其在所述地址要素关键词对应的地址要素级别的特征词之前:利用预先建立的地址分词词典对每一地址文本进行分词,从分词结果中确定每一地址文本在至少一个行政区级别的特征词;其中,任一行政区级别高于任一地址要素级别;当所述两个地址文本在同一行政区级别的特征词存在不符时,将所述两个地址文本确定为不匹配文本。可选地,所述至少一个行政区级别为多个行政区级别,所述地址分词词典中包括所述多个行政区级别的行政区名称;以及,所述从分词结果中确定每一地址文本在至少一个行政区级别的特征词具体包括:以预设顺序依次处理分词结果中的每一词:对于分词结果中的第一词,按照行政区级别从高到低的顺序在所述地址分词词典中确定与其相同的一个行政区名称,并将所述第一词作为该地址文本在该行政区名称对应的行政区级别的特征词;对于分词结果中位于所述第一词之后的任一词:从其前一词在所述地址分词词典中下辖的行政区名称中,按照行政区级别从高到低的顺序确定与所述任一词相同的一个行政区名称,并将所述任一词作为该地址文本在该行政区名称对应的行政区级别的特征词。可选地,所述地址分词词典中的行政区名称包括行政区的非规范名称。可选地,所述方法进一步包括:在所述从分词结果中确定每一地址文本在至少一个行政区级别的特征词之后:当该地址文本缺少一个行政区级别的特征词、且含有该行政区级别的下一行政区级别的特征词时,将所述地址分词词典中下辖该特征词、且处于该地址文本缺少的行政区级别的行政区名称确定为该地址文本缺少的特征词。可选地,所述方法进一步包括:当所述两个地址文本在同一行政区级别的特征词不存在不符时,将每一地址文本在每一行政区级别的特征词去除,得到对应于每一地址文本的初选文本。可选地,所述利用该地址文本含有的地址要素关键词,获取其在所述地址要素关键词对应的地址要素级别的特征词具体包括:以预设顺序依次处理每一初选文本中的每一地址要素关键词:对于该初选文本中的第一个地址要素关键词,将该初选文本在所述第一个地址要素关键词之前的部分确定为所述第一个地址要素关键词对应的地址要素级别的特征词;对于该初选文本中在第一个地址要素关键词之后的任一地址要素关键词,将该初选文本在该任一地址要素关键词与其前一地址要素关键词之间的部分确定为该任一地址要素关键词对应的地址要素级别的特征词。可选地,所述方法进一步包括:预先为至少一个地址要素级别设置前置依赖条件;以及,在所述将该初选文本在该任一地址要素关键词与其前一地址要素关键词之间的部分确定为该任一地址要素关键词对应的地址要素级别的特征词之后,所述方法进一步包括:若该地址要素级别设置有前置依赖条件,则在该前一地址要素关键词不符合该前置依赖条件时,将该特征词舍弃。可选地,所述方法进一步包括:在所述以预设顺序依次处理每一初选文本中的每一地址要素关键词之后:若该初选文本中存在同一地址要素级别的多个特征词,则查询为该地址要素级别预设的限制策略是否支持多个特征词:若不支持,将所述多个特征词舍弃。可选地,所述方法进一步包括:在所述以预设顺序依次处理每一初选文本中的每一地址要素关键词之后,在该初选文本中不存在预设的匹配粒度级别的特征词时,将所述两个地址文本确定为不匹配文本。可选地,所述多个行政区级别为省级、地级、县级;所述地址要素级别为以下一种或多种:镇级、村级、组级、路级、道路号级、栋级、单元级、层级、户级以及标志地名级;其中:镇级的地址要素关键词为:镇、乡、街道;村级的地址要素关键词为:村、居委会、社区;组级的地址要素关键词为:组;路级的地址要素关键词为:路、街、道、巷、弄、弄堂、胡同、大道、大路、大街;道路号级的地址要素关键词为:号;栋级的地址要素关键词为:栋、幢、座、楼、号楼;单元级的地址要素关键词为:单元;层级的地址要素关键词为:层、楼;户级的地址要素关键词为:户、室、屋、房、号、门;标志地名级的地址要素关键词为:广场、酒店、饭店、宾馆、中心、大厦、大楼、商城、公园、小区、花园、公司、寓所、会所、市场、社区、新村、苑、开发区、科技区、园区。可选地,组级的前置依赖条件为:其在初选文本中的前一地址要素关键词对应于村级;层级的前置依赖条件为:其在初选文本的前一地址要素关键词对应于单元级或栋级。可选地,所述方法进一步包括:在所述以预设顺序依次处理每一初选文本中的每一地址要素关键词之后:若该初选文本中存在路级的两个特征词,则将二者按照预设排列顺序拼接为一个词,作为该初选文本在路级的特征词。可选地,所述方法进一步包括:在所述以预设顺序依次处理每一初选文本中的每一地址要素关键词时:若路级的地址要素关键词的后一地址要素关键词为号,则确定该地址要素关键词对应于道路号级;若路级的地址要素关键词的后一地址要素关键词不为号、且该路级的地址要素关键词在后邻接至少一位数字,则确定该数字为道路号级的特征词;若栋级、单元级或层级的地址要素关键词的后一地址要素关键词为号,则确定该地址要素关键词对应于户级;若栋级、单元级或层级的地址要素关键词在后邻接至少一位数字、且在后不存在地址要素关键词,则确定该数字为户级的特征词。可选地,所述方法进一步包括:在所述以预设顺序依次处理每一初选文本中的每一地址要素关键词时:若道路号级或标志地名级的地址要素关键词的后一地址要素关键词为楼,则确定该地址要素关键词对应于栋级;若栋级或单元级的地址要素关键词的后一地址要素关键词为楼,则确定该地址要素关键词对应于层级。可选地,所述确定所述两个地址文本在同一地址本文档来自技高网...
地址文本的匹配方法和装置

【技术保护点】
1.一种地址文本的匹配方法,其特征在于,包括:对于待匹配的两个地址文本中的每一地址文本:利用该地址文本含有的地址要素关键词,获取其在所述地址要素关键词对应的地址要素级别的特征词;确定所述两个地址文本在同一地址要素级别的特征词的相似度,根据所述相似度得到所述两个地址文本的匹配度;并在匹配度符合预设的匹配条件时,将所述两个地址文本确定为匹配文本。

【技术特征摘要】
1.一种地址文本的匹配方法,其特征在于,包括:对于待匹配的两个地址文本中的每一地址文本:利用该地址文本含有的地址要素关键词,获取其在所述地址要素关键词对应的地址要素级别的特征词;确定所述两个地址文本在同一地址要素级别的特征词的相似度,根据所述相似度得到所述两个地址文本的匹配度;并在匹配度符合预设的匹配条件时,将所述两个地址文本确定为匹配文本。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:在所述利用该地址文本含有的地址要素关键词,获取其在所述地址要素关键词对应的地址要素级别的特征词之前:利用预先建立的地址分词词典对每一地址文本进行分词,从分词结果中确定每一地址文本在至少一个行政区级别的特征词;其中,任一行政区级别高于任一地址要素级别;当所述两个地址文本在同一行政区级别的特征词存在不符时,将所述两个地址文本确定为不匹配文本。3.根据权利要求2所述的方法,其特征在于,所述至少一个行政区级别为多个行政区级别,所述地址分词词典中包括所述多个行政区级别的行政区名称;以及,所述从分词结果中确定每一地址文本在至少一个行政区级别的特征词具体包括:以预设顺序依次处理分词结果中的每一词:对于分词结果中的第一词,按照行政区级别从高到低的顺序在所述地址分词词典中确定与其相同的一个行政区名称,并将所述第一词作为该地址文本在该行政区名称对应的行政区级别的特征词;对于分词结果中位于所述第一词之后的任一词:从其前一词在所述地址分词词典中下辖的行政区名称中,按照行政区级别从高到低的顺序确定与所述任一词相同的一个行政区名称,并将所述任一词作为该地址文本在该行政区名称对应的行政区级别的特征词。4.根据权利要求3所述的方法,其特征在于,所述地址分词词典中的行政区名称包括行政区的非规范名称。5.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:在所述从分词结果中确定每一地址文本在至少一个行政区级别的特征词之后:当该地址文本缺少一个行政区级别的特征词、且含有该行政区级别的下一行政区级别的特征词时,将所述地址分词词典中下辖该特征词、且处于该地址文本缺少的行政区级别的行政区名称确定为该地址文本缺少的特征词。6.根据权利要求3所述的方法,其特征在于,所述方法进一步包括:当所述两个地址文本在同一行政区级别的特征词不存在不符时,将每一地址文本在每一行政区级别的特征词去除,得到对应于每一地址文本的初选文本。7.根据权利要求6所述的方法,其特征在于,所述利用该地址文本含有的地址要素关键词,获取其在所述地址要素关键词对应的地址要素级别的特征词具体包括:以预设顺序依次处理每一初选文本中的每一地址要素关键词:对于该初选文本中的第一个地址要素关键词,将该初选文本在所述第一个地址要素关键词之前的部分确定为所述第一个地址要素关键词对应的地址要素级别的特征词;对于该初选文本中在第一个地址要素关键词之后的任一地址要素关键词,将该初选文本在该任一地址要素关键词与其前一地址要素关键词之间的部分确定为该任一地址要素关键词对应的地址要素级别的特征词。8.根据权利要求7所述的方法,其特征在于,所述方法进一步包括:预先为至少一个地址要素级别设置前置依赖条件;以及,在所述将该初选文本在该任一地址要素关键词与其前一地址要素关键词之间的部分确定为该任一地址要素关键词对应的地址要素级别的特征词之后,所述方法进一步包括:若该地址要素级别设置有前置依赖条件,则在该前一地址要素关键词不符合该前置依赖条件时,将该特征词舍弃。9.根据权利要求7所述的方法,其特征在于,所述方法进一步包括:在所述以预设顺序依次处理每一初选文本中的每一地址要素关键词之后:若该初选文本中存在同一地址要素级别的多个特征词,则查询为该地址要素级别预设的限制策略是否支持多个特征词:若不支持,将所述多个特征词舍弃。10.根据权利要求7所述的方法,其特征在于,所述方法进一步包括:在所述以预设顺序依次处理每一初选文本中的每一地址要素关键词之后,在该初选文本中不存在预设的匹配粒度级别的特征词时,将所述两个地址文本确定为不匹配文本。11.根据权利要求8所述的方法,其特征在于,所述多...

【专利技术属性】
技术研发人员:吴帅李晨陈晓佳
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1