一种地址纠错方法及终端技术

技术编号：18609950 阅读：18 留言：0更新日期：2018-08-04 22:55

本发明专利技术涉及数据处理领域，尤其涉及一种地址纠错方法及终端。本发明专利技术通过获取待纠错地址；根据第一字典树识别与所述待纠错地址对应的省份名称，得到一级名称；所述第一字典树用于存储省份名称和市名称；获取与所述一级名称对应的第二字典树；所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称；根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称，得到二级名称；获取与所述二级名称对应的第三字典树；所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称；根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址，得到候选地址集合。实现减少地址纠错过程中所占用的空间。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】一种地址纠错方法及终端
本专利技术涉及数据处理领域，尤其涉及一种地址纠错方法及终端。
技术介绍
通过OCR技术识别到地址信息后处理的方法主要有构建词表法、统计语言模型、语法树、相似字、距离信息等。比较常用的是构建词表法和统计语言模型。统计语言模型是用概率统计得到相近的字与字或者词与词之间的关系，根据出现这种关系的概率得出最有可能的结果，常用的有马尔可夫模型。比如给定一个地址为“湖x省长沙市”，根据地址的统计概率，“湖”字后为“南”的条件概率为N1，为“北”的条件概率为M1；“南”字后为“省”的条件概率为N2，“北”字后为“省”的条件概率为M2，则为“湖南省”的概率是N1*N2，为“湖北省”的概率是M1*M2，再根据“省”字后面的“长”字可以得出为“湖南省”的概率大于“湖北省”，得出地址为“湖南省长沙市”。根据地址的特性，一条地址数据通常可以分为多个词语，词语之间的联系要大于字与字之间的联系，因此基于词的统计语言模型更适用于地址纠错。利用基于词的统计语言模型进行地址纠错的方案，一般先通过收集地址数据，构建一个地址数据库训练语言模型，得到不同地址名之间出现的条件概率，作为参数保存；然后根据某种分词规则将地址分为多个词语；最后采用搜索算法求出语言模型的最优解，也就是出现概率最大的地址。但是，基于词的统计语言模型的缺点是需要计算词语出现的概率，利用搜索算法得出最后的地址。训练统计语言模型时，参数空间庞大，需要规模巨大的语料库，如果语料库数据不足，容易出现条件概率为0的情况，导致模型效果变差。地址中存在近似的地名，根据统计概率可能无法区分，如果增加马尔可夫模型的阶数...

【技术保护点】
1.一种地址纠错方法，其特征在于，包括：S1、获取待纠错地址；S2、根据第一字典树识别与所述待纠错地址对应的省份名称，得到一级名称；所述第一字典树用于存储省份名称和市名称；S3、获取与所述一级名称对应的第二字典树；所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称；S4、根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称，得到二级名称；S5、获取与所述二级名称对应的第三字典树；所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称；S6、根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址，得到候选地址集合。

【技术特征摘要】
【国外来华专利技术】1.一种地址纠错方法，其特征在于，包括：S1、获取待纠错地址；S2、根据第一字典树识别与所述待纠错地址对应的省份名称，得到一级名称；所述第一字典树用于存储省份名称和市名称；S3、获取与所述一级名称对应的第二字典树；所述第二字典树用于存储与所述当前省份名称对应的市名称、县名称和区名称；S4、根据所述第二字典树识别与所述待纠错地址对应的县名称或区名称，得到二级名称；S5、获取与所述二级名称对应的第三字典树；所述第三字典树用于存储与所述二级名称对应的乡镇名称、村名称和街道名称；S6、根据所述第三字典树获取与所述待纠错地址对应的一个以上候选地址，得到候选地址集合。2.根据权利要求1所述的地址纠错方法，其特征在于，所述S2具体为：当所述第一字典树中不存在与所述待纠错地址适配的省份名称时，获取与所述待纠错地址适配的市名称，得到当前市名称；获取与所述当前市名称对应的省份名称，得到所述一级名称。3.根据权利要求1所述的地址纠错方法，其特征在于，还包括：所述第一字典树中的一节点表示一省份名称或一市名称；所述第二字典树中的一节点表示一市名称、一县名称或一区名称；所述第三字典树中的一节点表示乡镇名称、村名称或街道名称中的一个字符。4.根据权利要求1所述的地址纠错方法，其特征在于，所述S5具体为：获取与所述二级名称对应的字典树，得到第三字典树；从所述待纠错地址中获取位于所述二级名称后，且与预设次序对应的字符，得到当前字符；根据所述第三字典树中与所述当前字符适配的分支裁剪需构造的第三字典树；所述第三字典树的根节点为所述二级名称。5.根据权利要求4所述的地址纠错方法，其特征在于，还包括：所述与预设次序对应的字符为所述二级名称后的第一个字符和所述二级名称后的第四个字符。6.根据权利要求1所述的地址纠错方法，其特征在于，所述S6之后，还包括：S71、从所述候选地址集合中获取一候选地址，得到当前候选地址；S72、统计所述当前候选地址与所述待纠错地址的相同位置上字符相同的个数，得到匹配个数；S73、重复执行所述S71至所述S72，直至所述候选地址集合被遍历；S74、获取所述候选地址集合中具有最大匹配个数的候选地址，得到最佳地址；S75、根据所述最佳地址更新所述待纠错地址，得到正确地址。7.根据权利要求6所述的地址纠错方法，其特征在于，所述S75具体为：若所述最佳地址存在两个以上连续的，且与所述待纠错地址不适配的字符，则：从所述最佳地址中获取位于两个以上连续的，且与所述待纠错地址不适配的字符之前的字符串；根据所述字符串更新所述待纠错地址，得到正确地址；否则，设置所述最佳地址为正确地址。8.根据权利要求1所述的地址纠错方法，其特征在于，所述S1具体为：通过光学字符识别技术识别身份证中的地址信息，得到所述待纠错地址。9.一种地址纠错终端，其特征在于，包括一个或多个处理器及...

【专利技术属性】
技术研发人员：李林贵，吴卫东，周涛，
申请(专利权)人：福建联迪商用设备有限公司，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人