【技术实现步骤摘要】
门牌信息的处理方法及装置
本专利技术涉及通信领域,具体而言,涉及一种门牌信息的处理方法及装置。
技术介绍
门牌号的应用领域主要在地图行业,因此目前的门牌号的识别技术还是在基于关键词搜索和人工校验的方式,关键词检索包括了基于门牌号后缀的字符串检查和门牌中是否有数字信息检查,然后通过人工经验的方式总结匹配规则。相关技术中的门牌号识别方式,非常依赖于人工经验,且覆盖面小,无法针对不同门牌号(例如,全国上百万道路的门牌号)命名方式做到有效的正式识别,比如,上海很多门牌号叫弄、支弄。还有一些门牌号是以村组、段、两、道这种不常见和非人工经验可以总结出的门牌后缀。同时在一个道路里也会出现包括数字、字母、中文的混合门牌号信息,这些都加大了人工校验的成本和难度。针对相关技术中由于门牌号命名方式多样导致的门牌号指示的地址不准确的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例中提供了一种门牌信息的处理方法及装置,以至少解决由于门牌号命名方式多样导致的门牌号指示的地址不准确的问题的技术问题。根据本专利技术实施例的一个方面,提供了一种门牌信息的处理方法,包括:对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息,其中,所述具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;计算所述具有相同格式的门牌信息中每个所述道路名下的每个门牌号前缀模板所对应的所述门牌号后缀出现的次数,其中,所述门牌号前缀模板是根据所述门牌号前缀的字符串类型得到的模板;使用门牌统计信息对目标门牌信息中异常的门牌号前缀 ...
【技术保护点】
1.一种门牌信息的处理方法,其特征在于,包括:对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息,其中,所述具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;计算所述具有相同格式的门牌信息中每个所述道路名下的每个门牌号前缀模板所对应的所述门牌号后缀出现的次数,其中,所述门牌号前缀模板是根据所述门牌号前缀的字符串类型得到的模板;使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,所述门牌统计信息包括:具有对应关系的所述次数、与计算所述次数时使用的所述门牌号后缀、所述门牌号前缀模板和所述道路名。
【技术特征摘要】
1.一种门牌信息的处理方法,其特征在于,包括:对预定的门牌信息集合中的门牌信息进行分词处理,得到分词结果;根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息,其中,所述具有相同格式的门牌信息包括:道路名、门牌号前缀和门牌号后缀;计算所述具有相同格式的门牌信息中每个所述道路名下的每个门牌号前缀模板所对应的所述门牌号后缀出现的次数,其中,所述门牌号前缀模板是根据所述门牌号前缀的字符串类型得到的模板;使用门牌统计信息对目标门牌信息中异常的门牌号前缀和/或门牌号后缀进行修正,其中,所述门牌统计信息包括:具有对应关系的所述次数、与计算所述次数时使用的所述门牌号后缀、所述门牌号前缀模板和所述道路名。2.根据权利要求1所述的方法,其特征在于,通过以下步骤来从所述目标门牌信息中查找出所述异常的门牌号前缀:从所述门牌统计信息中获取与所述目标门牌信息中的道路名相同的目标道路名;判断门牌号前缀模板集合中是否存在与第一门牌号前缀模板具有包含关系的第二门牌号前缀模板,其中,所述第一门牌号前缀模板是根据所述目标门牌信息中的门牌号前缀的字符串类型得到的模板,所述门牌号前缀模板集合中的门牌号前缀模板是根据所述门牌统计信息中所述目标道路名下的门牌号前缀的字符串类型得到的模板;在判断出所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板时,确定所述目标门牌信息中的门牌号前缀为所述异常的门牌号前缀。3.根据权利要求2所述的方法,其特征在于,使用所述门牌统计信息对目标门牌信息中所述异常的门牌号前缀进行修正包括:按照所述第二门牌号前缀模板对所述异常的门牌号前缀中的字符串进行修正,得到修正后的门牌号前缀,其中,根据所述修正后的门牌号前缀的字符串类型得到的门牌号前缀模板为所述第二门牌号前缀模板。4.根据权利要求2所述的方法,其特征在于,通过以下步骤来从所述目标门牌信息中查找出所述异常的门牌号后缀:在所述目标门牌信息中的门牌号后缀为空时,确定所述目标门牌信息中的门牌号后缀为所述异常的门牌号后缀;在所述目标门牌信息中的门牌号后缀不为空、且所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板或存在所述第一门牌号前缀模板相同的第三门牌号前缀模板时,判断所述目标道路名下的所述第二门牌号前缀模板或所述第三门牌号前缀模板所对应的门牌号后缀中是否存在与所述目标门牌信息中的门牌号后缀相同的门牌号后缀;在判断出不存在与所述目标门牌信息中的门牌号后缀相同的门牌号后缀时,确定所述目标门牌信息中的门牌号后缀为所述异常的门牌号后缀。5.根据权利要求1或2所述的方法,其特征在于,使用所述门牌统计信息对目标门牌信息中所述异常的门牌号后缀进行修正包括:将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述门牌统计信息中所述目标门牌号后缀所属的目标道路名与所述目标门牌信息中所述异常的门牌号后缀所属的道路名相同。6.根据权利要求5所述的方法,其特征在于,将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀包括以下至少之一:在所述门牌号前缀模板集合中存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板或存在所述第一门牌号前缀模板相同的第三门牌号前缀模板时,将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述目标门牌号后缀为所述目标道路名下的所述第二门牌号前缀模板或所述第三门牌号前缀模板所对应的出现次数最多的门牌号后缀;在所述门牌号前缀模板集合中不存在与所述第一门牌号前缀模板具有包含关系的所述第二门牌号前缀模板、且不存在所述第一门牌号前缀模板相同的第三门牌号前缀模板、且所述目标门牌信息中异常的门牌号后缀为空时,将所述目标门牌信息中所述异常的门牌号后缀修改为所述门牌统计信息中的目标门牌号后缀,其中,所述目标门牌号后缀为所述门牌统计信息中所述目标道路名下的出现次数最多的门牌号后缀,所述门牌统计信息还包括:每个所述道路名下的每个所述门牌号后缀出现的次数。7.根据权利要求1至4中任一项所述的方法,其特征在于,根据所述分词结果从所述门牌信息集合中提取出具有相同格式的门牌信息包括:在所述门牌信息集合中的门牌信息包括中文数字的情况下,将所述中文数字都转化为阿拉伯数字,其中,所述分词结果包括所述中文数字;在所述门牌信息集合中的门牌信息包括英文字母的情况下,将所述英文字母的格式都转化为大写格式或小写格式,其中,所述分词结果包括所述英文字母;将转化后的所述门牌信息中的核心字符串设置为所述门牌号前缀,且在所述转化后的所述门牌信息中存在除所述道路名和所述核心字符串之外的剩余字符串时,将所述剩余字符串设置为所述门牌号后缀,在所述转化后的所述门牌信息仅包括所述道路名和所述核心字符串时,将所述门牌号后缀设置为空,其中,根据所述核心字符串的字符串类型所得到的模板属于预设门牌号前缀模板集合中的一个门牌号前缀模板。8.根据权利要求1至4中任一项所述的方法,其特征在于,在使用门牌统计信息对目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀进行修正之前,还包括以下至少之一:从所述门牌信息集合中获取所述目标门牌信息;从待处理的地址信息中获取所述目标门牌信息。9.根据权利要求1至4中任一项所述的方法,其特征在于,在使用门牌统计信息对目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀进行修正之后,还包括:在接收到输入的地址信息包括所述目标门牌信息中所述异常的门牌号前缀和/或门牌号后缀时,显示提示信息,其中,所述提示信息用于提示所述门牌统计信息中用于对所述异常的门牌号前缀和/或门牌号后缀进行修正的门牌号前缀和/或门牌号后缀。10.一种门牌信息的处理装置,其特征在于,包括:分词单元,用于对预定的门...
【专利技术属性】
技术研发人员:孙福宁,孟凡超,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。