一种地址纠错方法、装置及存储介质制造方法及图纸

技术编号:21185334 阅读:20 留言:0更新日期:2019-05-22 15:57
本发明专利技术涉及数据处理技术领域,公开了一种地址纠错方法、装置及存储介质,包括:获取待纠错地址的候选地址集,候选地址集包括多个候选地址;确定各候选地址中每个字符在待纠错地址中的出现位置信息;根据各候选地址中每个字符的出现位置信息,确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目;确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目;根据各候选地址对应的匹配字符数目和异常字符数目,确定各候选地址的匹配度;匹配度与候选地址应对应的匹配字符数目正相关,与异常字符数目负相关;选取候选地址集中,与待纠错地址匹配度最高的候选地址,对待纠错地址进行纠错,获得纠错后的地址。

An Address Error Correction Method, Device and Storage Media

The invention relates to the technical field of data processing, and discloses an address correction method, device and storage medium, including: obtaining candidate address sets of addresses to be corrected, and candidate address sets including multiple candidate addresses; determining the position information of each character in the address to be corrected in each candidate address; and determining each time according to the position information of each character in each candidate address. The number of matching characters matched with the address to be corrected is selected; the number of abnormal characters matched with the address to be corrected in each candidate address is determined; the matching degree of each candidate address is determined according to the number of matching characters and abnormal characters corresponding to the address to be corrected; the matching degree is positively correlated with the number of matching characters corresponding to the address to be corrected, and is abnormal. The number of characters is negatively correlated; the candidate addresses with the highest matching degree with the addresses to be corrected are selected, and the corrected addresses are corrected to obtain the corrected addresses.

【技术实现步骤摘要】
一种地址纠错方法、装置及存储介质
本专利技术涉及数据处理
,尤其涉及一种地址纠错方法、装置及存储介质。
技术介绍
目前,在使用OCR(OpticalCharacterRecognition,光学字符识别)技术识别如图片或快递单上的地址信息时,会由于图片或快递单中出现的皱褶、黑边、印记等影响识别结果的因素,会导致识别出的地址信息中可能会出现错字,漏字等情况,因此,还需对通过OCR技术识别出的地址信息进行纠错。然而,如何提升地址纠错的准确度,是一个需要解决的技术问题。
技术实现思路
本专利技术实施例提供一种地址纠错方法、装置及存储介质,用于提升地址纠错的准确度。一方面,本专利技术实施例中提供了一种地址纠错方法,包括:获取待纠错地址的候选地址集,所述候选地址集包括多个候选地址;确定各候选地址中每个字符在待纠错地址中的出现位置信息;根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目;以及分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目;根据各候选地址对应的匹配字符数目和异常字符数目,分别确定各候选地址的匹配度;其中,匹配度与候选地址应对应的匹配字符数目正相关,与异常字符数目负相关;选取所述候选地址集中,候选地址与所述待纠错地址匹配度最高的候选地址,对所述待纠错地址进行纠错,获得纠错后的地址。另一方面,本专利技术实施例中提供一种地址纠错装置,包括:获取单元,用于获取待纠错地址的候选地址集,所述候选地址集包括多个候选地址;位置确定单元,用于确定各候选地址中每个字符在待纠错地址中的出现位置信息;匹配字符确定单元,用于根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目;以及异常字符确定单元,用于分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目;匹配度确定单元,用于根据各候选地址对应的匹配字符数目和异常字符数目,分别确定各候选地址的匹配度;其中,匹配度与候选地址应对应的匹配字符数目正相关,与异常字符数目负相关;选取单元,用于选取所述候选地址集中,候选地址与所述待纠错地址匹配度最高的候选地址,对所述待纠错地址进行纠错,获得纠错后的地址。另一方面,本专利技术实施例中提供一种计算机装置,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行如本专利技术实施例中的地址纠错方法的步骤。另一方面,本专利技术实施例中提供一种存储介质,所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如本专利技术实施例中的地址纠错方法的步骤。本专利技术实施例中的地址纠错方法,在获取到待纠错地址的候选地址集之后,针对候选地址集中的每个候选地址,按照以下方式获得各候选地址与待纠错地址的匹配度:即确定本候选地址中每个字符在待纠错地址中的出现位置信息,然后根据每个字符的出现位置信息,确定该候选地址中与所述待纠错地址匹配的字符的匹配字符数目,以及确定该候选地址中与所述待纠错地址不匹配的字符的异常字符数目,进而根据匹配字符数目和异常字符数目,确定该候选地址的匹配度,其中,匹配度与匹配字符数目正相关,与异常字符数目负相关;然后再选取候选地址集中,候选地址与待纠错地址匹配度最高的候选地址,对待纠错地址进行纠错,获得纠错后的地址,可见,该方法中,相对于现有技术,不需要建立庞大的字典树,也不要进行难度较大的模型训练,所以,具有减小纠错过程中所占用的内存空间,以及降低地址纠错难度的有益效果,且由于该方案中,利用了各候选地址中每个字符在待纠错地址中的出现位置信息,准确的确定出了各候选地址与待纠错地址匹配的字符的匹配字符数目,以及不匹配的字符的异常字符数目,从而根据匹配字符数目和异常字符数目,确定出匹配度最高的候选地址对待纠错地址进行纠错,所以,提高了地址纠错的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例。图1为本专利技术实施例提供的一种应用场景示意图;图2为本专利技术实施例提供的地址纠错方法流程图;图3为本专利技术实施例提供的匹配字符数目确定方法流程图;图4为本专利技术实施例提供的快递单示意图;图5为本专利技术实施例提供一种地址纠错装置示意图;图6为本专利技术实施例提供另一种地址纠错装置示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术技术方案保护的范围。下面对本专利技术实施例中涉及的部分概念进行介绍。OCR技术:是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。终端设备:可以安装各类应用程序,并且能够将已安装的应用程序中提供的对象进行显示的设备,该电子设备可以是移动的,也可以是固定的。例如,手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personaldigitalassistant,PDA)或其它能够实现上述功能的电子设备等。在具体实践过程中,本专利技术的专利技术人发现,现有技术中主要采用两种方式对地址进行纠错,一种是基于统计的语言模型算法进行地址纠错;另一种是基于字典树的方式进行地址纠错。然而,基于统计的语言模型算法进行地址纠错的方式中,由于参数空间过大,条件概率的可能性太多,无法估量,进而增加了训练模型的难度,即算法实现难度较大。此外,于统计的语言模型算法数据稀疏严重,对于非常多词对的组合,在语料库中都没有出现,依据最大似然估计得出的概率会是零,导致最终的纠错效果不好,即纠错准确度。而基于字典树的纠错方式,缺点之一就是构建地址数据的字典树太庞大,占用空间过多,查询结果极大依赖字典树的完整性,此外,对于特殊的待纠错地址信息,比如:缺字、漏字、前缀重复等,此方法无法很好的通过遍历字典树进行纠正,因此,基于字典树的方式进行地址纠错方式,也存在地址纠错的准确度低的问题。基于此,本专利技术实施例提供一种地址纠错方法,该方法在获取到待纠错地址的候选地址集之后,针对候选地址集中的每个候选地址,按照以下方式获得各候选地址与待纠错地址的匹配度:即确定本候选地址中每个字符在待纠错地址中的出现位置信息,然后根据每个字符的出现位置信息,确定该候选地址中与所述待纠错地址匹配的字符的匹配字符数目,以及确定该候选地址中与所述待纠错地址不匹配的字符的异常字符数目,进而根据匹配字符数目和异常字符数目,确定该候选地址的匹配度,其中,匹配度与匹配字符数目正相关,与异常字符数目负相关;然后再选取候选地址集中,候选地址与待纠错地址匹配度最高的候选地址,对待纠错地址进行纠错,获得纠错后的地址,可见,该方法中,相对于现有技术,不需要建立庞大的字典树,也不要进行难度较大的模型训练,所以,具有减小纠错过程中所占用的内存空间,以及降低地址纠错难度的有益效果,且由本文档来自技高网...

【技术保护点】
1.一种地址纠错方法,其特征在于,包括:获取待纠错地址的候选地址集,所述候选地址集包括多个候选地址;确定各候选地址中每个字符在待纠错地址中的出现位置信息;根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目;以及分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目;根据各候选地址对应的匹配字符数目和异常字符数目,分别确定各候选地址的匹配度;其中,匹配度与候选地址应对应的匹配字符数目正相关,与异常字符数目负相关;选取所述候选地址集中,候选地址与所述待纠错地址匹配度最高的候选地址,对所述待纠错地址进行纠错,获得纠错后的地址。

【技术特征摘要】
1.一种地址纠错方法,其特征在于,包括:获取待纠错地址的候选地址集,所述候选地址集包括多个候选地址;确定各候选地址中每个字符在待纠错地址中的出现位置信息;根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目;以及分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目;根据各候选地址对应的匹配字符数目和异常字符数目,分别确定各候选地址的匹配度;其中,匹配度与候选地址应对应的匹配字符数目正相关,与异常字符数目负相关;选取所述候选地址集中,候选地址与所述待纠错地址匹配度最高的候选地址,对所述待纠错地址进行纠错,获得纠错后的地址。2.如权利要求1所述的方法,其特征在于,所述匹配字符数目为:出现在相同位置的同字符的字符数目与出现位置不同的相同字符串包括的所有字符数目之和。3.如权利要求2所述的方法,其特征在于,所述异常字符数目包括:字符相同但出现位置不同的不匹配字符数目,和/或没有在所述待纠错地址出现的失踪字符数目。4.如权利要求3所述的方法,其特征在于,所述根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目,包括:根据各候选地址中各个字符的出现位置信息,分别获得各候选地址的目标位置信息队列;各候选地址的目标位置信息队列包括对应候选地址中各个字符在待纠错地址中的位置序号,各个字符的位置序号按照各个字符在对应候选地址中的排列顺序进行排序,未出现的字符的位置序号为特殊序号;根据各候选地址的目标位置信息队列,分别确定各候选地址的匹配字符数目为:位置序号出现在对应排序位置的位置序号总数,与位置序号没有出现在对应排序位置但是为位置序号依次增大的序列中包含的位置序号总数之和;其中,位置序号出现在对应排序位置的位置序号总数为所述同字符的字符数目,位置序号没有出现在对应排序位置但是为位置序号依次增大的序列中包含的位置序号总数为所述相同字符串包括的所有字符数目之和。5.如权利要求4所述的方法,其特征在于,所述分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目,具体包括:根据各候选地址的目标位置信息队列,分别确定各候选地址中的不匹配字符数目为:位置序号出现在对应排序位置的单个位置序号总数;和/或确定所述失踪字符数目为:位置序号为特殊序号的字符数目。6.如权利要求4所述的方法,其特征在于,所述根据各候选地址各个字符的出现位置信息,分别获得各候选地址的目标位置信息队列,具体包括:根据各候选地址的各个字符的出现位置信息,分别确定各候选地址中是否存在包括至少两个位置序号的目标字符;若是,则分别将所述目标字符的每一个位置序号与对应的候选地址的其他字符的位置序号,按照各个字符在对应的候选地址中的排列顺序进行排序,获得至少两个位置信息队列;从至少两个位置信息队列中,确定未在待纠错地址出现的失踪字符数目最少的目标位置信息队列。7.如权利要求1-6中任一项所述的方法,其特征在于,所述获取待纠错地址的候选地址集,包括:对应多级地址缓存表中的各级地址的行政地址组成规则,将所述待纠错地址分割为多个分词;将所述多个分词与对应级别的地址进行比较,并以各级地址之间的关联关系在相邻级别之间进行纠错,以确定多个分词对应的多级地址;确定所述多级地址中的每级地址的多种不同命名;按照所述行政区地址的组成规则,对所述多级地...

【专利技术属性】
技术研发人员:王斌王世卿
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1