一种地址纠错方法及终端技术

技术编号:18609950 阅读:18 留言:0更新日期:2018-08-04 22:55
本发明专利技术涉及数据处理领域,尤其涉及一种地址纠错方法及终端。本发明专利技术通过获取待纠错地址;根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址,得到候选地址集合。实现减少地址纠错过程中所占用的空间。

【技术实现步骤摘要】
【国外来华专利技术】一种地址纠错方法及终端
本专利技术涉及数据处理领域,尤其涉及一种地址纠错方法及终端。
技术介绍
通过OCR技术识别到地址信息后处理的方法主要有构建词表法、统计语言模型、语法树、相似字、距离信息等。比较常用的是构建词表法和统计语言模型。统计语言模型是用概率统计得到相近的字与字或者词与词之间的关系,根据出现这种关系的概率得出最有可能的结果,常用的有马尔可夫模型。比如给定一个地址为“湖x省长沙市”,根据地址的统计概率,“湖”字后为“南”的条件概率为N1,为“北”的条件概率为M1;“南”字后为“省”的条件概率为N2,“北”字后为“省”的条件概率为M2,则为“湖南省”的概率是N1*N2,为“湖北省”的概率是M1*M2,再根据“省”字后面的“长”字可以得出为“湖南省”的概率大于“湖北省”,得出地址为“湖南省长沙市”。根据地址的特性,一条地址数据通常可以分为多个词语,词语之间的联系要大于字与字之间的联系,因此基于词的统计语言模型更适用于地址纠错。利用基于词的统计语言模型进行地址纠错的方案,一般先通过收集地址数据,构建一个地址数据库训练语言模型,得到不同地址名之间出现的条件概率,作为参数保存;然后根据某种分词规则将地址分为多个词语;最后采用搜索算法求出语言模型的最优解,也就是出现概率最大的地址。但是,基于词的统计语言模型的缺点是需要计算词语出现的概率,利用搜索算法得出最后的地址。训练统计语言模型时,参数空间庞大,需要规模巨大的语料库,如果语料库数据不足,容易出现条件概率为0的情况,导致模型效果变差。地址中存在近似的地名,根据统计概率可能无法区分,如果增加马尔可夫模型的阶数,参数空间会急剧增大。构建词表法是用某种数据结构来保存分类后的词语,根据词表进行查询,得到可能的词语来纠正当前错误的词语。数据结构可以线性结构或者是树状结构,一般来说,线性结构的时间和空间效率比较低,常用的是树状结构,比如应用在搜索引擎中的字典树。字典树是以具有相同前缀的词语共用根节点构建的,比如add、and、andy存为树状结构如图1所示。将数据保存为字典树能够共用节点、减少冗余。但是由于汉字种类过多,每个节点存放一个汉字以及指针,形成的字典树非常大,会占用很多空间。查询时,从根节点向下,进入不同的分支,最后将进入过的所有节点连接,得出地址。但是,字典树的缺点是构建地址数据的字典树太庞大,占用空间过多。
技术实现思路
本专利技术所要解决的技术问题是:如何减少地址纠错过程中所占用的空间。为了解决上述技术问题,本专利技术采用的技术方案为:本专利技术提供一种地址纠错方法,包括:S1、获取待纠错地址;S2、根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;S3、获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;S4、根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;S5、获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;S6、根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址,得到候选地址集合。本专利技术还提供一种地址纠错终端,包括一个或多个处理器及存储器,所述存储器存储有程序,并且被配置成由所述一个或多个处理器执行以下步骤:S1、获取待纠错地址;S2、根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;S3、获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;S4、根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;S5、获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;S6、根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址,得到候选地址集合。本专利技术的有益效果在于:区别于现有技术,在纠错地址时需调用与全国地址对应的完整的字典树,占用空间大,本专利技术将全国地址按照省、市县区、乡镇村街道分级保存,依次核查待纠错地址中的省份信息、市县区信息和乡镇村街道信息,并根据每次的核查结果动态调取与下一级地址对应的字典树,极大程度上减少了在地址纠错过程中内存空间的占用情况,且具有较高的准确度。附图说明图1为字典树示意图;图2为本专利技术提供的一种地址纠错方法的具体实施方式的流程框图;图3为本专利技术提供的一种地址纠错终端的具体实施方式的结构框图;图4为第一字典树示意图;图5为第二字典树示意图;图6为第三字典树示意图;图7为与待纠错地址对应的字典树示意图;标号说明:1、处理器;2、存储器。具体实施方式本专利技术最关键的技术构思在于:本申请将全国地址按照省、市县区、乡镇村街道分级保存,依次核查待纠错地址中的省份信息、市县区信息和乡镇村街道信息,并根据每次的核查结果动态调取与下一级地址对应的字典树,减少了在地址纠错过程中内存空间的占用情况。请参照图2至图7,如图2所示,本专利技术提供一种地址纠错方法,包括:S1、获取待纠错地址;S2、根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;S3、获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;S4、根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;S5、获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;S6、根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址,得到候选地址集合。进一步地,所述S2具体为:当所述第一字典树中不存在与所述待纠错地址适配的省份名称时,获取与所述待纠错地址适配的市名称,得到当前市名称;获取与所述当前市名称对应的省份名称,得到所述一级名称。由上述描述可知,在待纠错地址的省份名称错误程度较严重的情况下,可通过市名称确认与待纠错地址对应的省份名称,有利于提高纠错的准确度。进一步地,还包括:所述第一字典树中的一节点表示一省份名称或一市名称;所述第二字典树中的一节点表示一市名称、一县名称或一区名称;所述第三字典树中的一节点表示乡镇名称、村名称或街道名称中的一个字符。由上述描述可知,一般省、市、县名称重复的可能性比较小,可以将整个词存为一个节点,而县级以后可能为乡镇、村级或者街道,重复出现的可能性比较大,共用相同前缀可以有效减少冗余,减少所需占用的空间。进一步地,所述S5具体为:获取与所述二级名称对应的字典树,得到第三字典树;从所述待纠错地址中获取位于所述二级名称后,且与预设次序对应的字符,得到当前字符;根据所述第三字典树中与所述当前字符适配的分支裁剪需构造的第三字典树;所述第三字典树的根节点为所述二级名称。由上述描述可知,通过指定特定位置的字符,并选取与特定位置的字符适配的分支信息作为候选的地址,减少了第三字典树的容量,即减少了核查乡镇村街道地址时所需占用的空间。进一步地,还包括:所述与预设次序对应的字符为所述二级名称后的第一个字符和所述二级名称后的第四个字符本文档来自技高网
...

【技术保护点】
1.一种地址纠错方法,其特征在于,包括:S1、获取待纠错地址;S2、根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;S3、获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;S4、根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;S5、获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;S6、根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址,得到候选地址集合。

【技术特征摘要】
【国外来华专利技术】1.一种地址纠错方法,其特征在于,包括:S1、获取待纠错地址;S2、根据第一字典树识别与所述待纠错地址对应的省份名称,得到一级名称;所述第一字典树用于存储省份名称和市名称;S3、获取与所述一级名称对应的第二字典树;所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称;S4、根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称,得到二级名称;S5、获取与所述二级名称对应的第三字典树;所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称;S6、根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址,得到候选地址集合。2.根据权利要求1所述的地址纠错方法,其特征在于,所述S2具体为:当所述第一字典树中不存在与所述待纠错地址适配的省份名称时,获取与所述待纠错地址适配的市名称,得到当前市名称;获取与所述当前市名称对应的省份名称,得到所述一级名称。3.根据权利要求1所述的地址纠错方法,其特征在于,还包括:所述第一字典树中的一节点表示一省份名称或一市名称;所述第二字典树中的一节点表示一市名称、一县名称或一区名称;所述第三字典树中的一节点表示乡镇名称、村名称或街道名称中的一个字符。4.根据权利要求1所述的地址纠错方法,其特征在于,所述S5具体为:获取与所述二级名称对应的字典树,得到第三字典树;从所述待纠错地址中获取位于所述二级名称后,且与预设次序对应的字符,得到当前字符;根据所述第三字典树中与所述当前字符适配的分支裁剪需构造的第三字典树;所述第三字典树的根节点为所述二级名称。5.根据权利要求4所述的地址纠错方法,其特征在于,还包括:所述与预设次序对应的字符为所述二级名称后的第一个字符和所述二级名称后的第四个字符。6.根据权利要求1所述的地址纠错方法,其特征在于,所述S6之后,还包括:S71、从所述候选地址集合中获取一候选地址,得到当前候选地址;S72、统计所述当前候选地址与所述待纠错地址的相同位置上字符相同的个数,得到匹配个数;S73、重复执行所述S71至所述S72,直至所述候选地址集合被遍历;S74、获取所述候选地址集合中具有最大匹配个数的候选地址,得到最佳地址;S75、根据所述最佳地址更新所述待纠错地址,得到正确地址。7.根据权利要求6所述的地址纠错方法,其特征在于,所述S75具体为:若所述最佳地址存在两个以上连续的,且与所述待纠错地址不适配的字符,则:从所述最佳地址中获取位于两个以上连续的,且与所述待纠错地址不适配的字符之前的字符串;根据所述字符串更新所述待纠错地址,得到正确地址;否则,设置所述最佳地址为正确地址。8.根据权利要求1所述的地址纠错方法,其特征在于,所述S1具体为:通过光学字符识别技术识别身份证中的地址信息,得到所述待纠错地址。9.一种地址纠错终端,其特征在于,包括一个或多个处理器及...

【专利技术属性】
技术研发人员:李林贵吴卫东周涛
申请(专利权)人:福建联迪商用设备有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1