The invention relates to the technical field of data processing, and discloses an address correction method, device and storage medium, including: obtaining candidate address sets of addresses to be corrected, and candidate address sets including multiple candidate addresses; determining the position information of each character in the address to be corrected in each candidate address; and determining each time according to the position information of each character in each candidate address. The number of matching characters matched with the address to be corrected is selected; the number of abnormal characters matched with the address to be corrected in each candidate address is determined; the matching degree of each candidate address is determined according to the number of matching characters and abnormal characters corresponding to the address to be corrected; the matching degree is positively correlated with the number of matching characters corresponding to the address to be corrected, and is abnormal. The number of characters is negatively correlated; the candidate addresses with the highest matching degree with the addresses to be corrected are selected, and the corrected addresses are corrected to obtain the corrected addresses.
【技术实现步骤摘要】
一种地址纠错方法、装置及存储介质
本专利技术涉及数据处理
,尤其涉及一种地址纠错方法、装置及存储介质。
技术介绍
目前,在使用OCR(OpticalCharacterRecognition,光学字符识别)技术识别如图片或快递单上的地址信息时,会由于图片或快递单中出现的皱褶、黑边、印记等影响识别结果的因素,会导致识别出的地址信息中可能会出现错字,漏字等情况,因此,还需对通过OCR技术识别出的地址信息进行纠错。然而,如何提升地址纠错的准确度,是一个需要解决的技术问题。
技术实现思路
本专利技术实施例提供一种地址纠错方法、装置及存储介质,用于提升地址纠错的准确度。一方面,本专利技术实施例中提供了一种地址纠错方法,包括:获取待纠错地址的候选地址集,所述候选地址集包括多个候选地址;确定各候选地址中每个字符在待纠错地址中的出现位置信息;根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目;以及分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目;根据各候选地址对应的匹配字符数目和异常字符数目,分别确定各候选地址的匹配度;其中,匹配度与候选地址应对应的匹配字符数目正相关,与异常字符数目负相关;选取所述候选地址集中,候选地址与所述待纠错地址匹配度最高的候选地址,对所述待纠错地址进行纠错,获得纠错后的地址。另一方面,本专利技术实施例中提供一种地址纠错装置,包括:获取单元,用于获取待纠错地址的候选地址集,所述候选地址集包括多个候选地址;位置确定单元,用于确定各候选地址中每个字符在待纠错地址中的出现位置信息;匹配字符确 ...
【技术保护点】
1.一种地址纠错方法,其特征在于,包括:获取待纠错地址的候选地址集,所述候选地址集包括多个候选地址;确定各候选地址中每个字符在待纠错地址中的出现位置信息;根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目;以及分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目;根据各候选地址对应的匹配字符数目和异常字符数目,分别确定各候选地址的匹配度;其中,匹配度与候选地址应对应的匹配字符数目正相关,与异常字符数目负相关;选取所述候选地址集中,候选地址与所述待纠错地址匹配度最高的候选地址,对所述待纠错地址进行纠错,获得纠错后的地址。
【技术特征摘要】
1.一种地址纠错方法,其特征在于,包括:获取待纠错地址的候选地址集,所述候选地址集包括多个候选地址;确定各候选地址中每个字符在待纠错地址中的出现位置信息;根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目;以及分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目;根据各候选地址对应的匹配字符数目和异常字符数目,分别确定各候选地址的匹配度;其中,匹配度与候选地址应对应的匹配字符数目正相关,与异常字符数目负相关;选取所述候选地址集中,候选地址与所述待纠错地址匹配度最高的候选地址,对所述待纠错地址进行纠错,获得纠错后的地址。2.如权利要求1所述的方法,其特征在于,所述匹配字符数目为:出现在相同位置的同字符的字符数目与出现位置不同的相同字符串包括的所有字符数目之和。3.如权利要求2所述的方法,其特征在于,所述异常字符数目包括:字符相同但出现位置不同的不匹配字符数目,和/或没有在所述待纠错地址出现的失踪字符数目。4.如权利要求3所述的方法,其特征在于,所述根据各候选地址中每个字符的出现位置信息,分别确定各候选地址中与所述待纠错地址匹配的字符的匹配字符数目,包括:根据各候选地址中各个字符的出现位置信息,分别获得各候选地址的目标位置信息队列;各候选地址的目标位置信息队列包括对应候选地址中各个字符在待纠错地址中的位置序号,各个字符的位置序号按照各个字符在对应候选地址中的排列顺序进行排序,未出现的字符的位置序号为特殊序号;根据各候选地址的目标位置信息队列,分别确定各候选地址的匹配字符数目为:位置序号出现在对应排序位置的位置序号总数,与位置序号没有出现在对应排序位置但是为位置序号依次增大的序列中包含的位置序号总数之和;其中,位置序号出现在对应排序位置的位置序号总数为所述同字符的字符数目,位置序号没有出现在对应排序位置但是为位置序号依次增大的序列中包含的位置序号总数为所述相同字符串包括的所有字符数目之和。5.如权利要求4所述的方法,其特征在于,所述分别确定各候选地址中与所述待纠错地址不匹配的字符的异常字符数目,具体包括:根据各候选地址的目标位置信息队列,分别确定各候选地址中的不匹配字符数目为:位置序号出现在对应排序位置的单个位置序号总数;和/或确定所述失踪字符数目为:位置序号为特殊序号的字符数目。6.如权利要求4所述的方法,其特征在于,所述根据各候选地址各个字符的出现位置信息,分别获得各候选地址的目标位置信息队列,具体包括:根据各候选地址的各个字符的出现位置信息,分别确定各候选地址中是否存在包括至少两个位置序号的目标字符;若是,则分别将所述目标字符的每一个位置序号与对应的候选地址的其他字符的位置序号,按照各个字符在对应的候选地址中的排列顺序进行排序,获得至少两个位置信息队列;从至少两个位置信息队列中,确定未在待纠错地址出现的失踪字符数目最少的目标位置信息队列。7.如权利要求1-6中任一项所述的方法,其特征在于,所述获取待纠错地址的候选地址集,包括:对应多级地址缓存表中的各级地址的行政地址组成规则,将所述待纠错地址分割为多个分词;将所述多个分词与对应级别的地址进行比较,并以各级地址之间的关联关系在相邻级别之间进行纠错,以确定多个分词对应的多级地址;确定所述多级地址中的每级地址的多种不同命名;按照所述行政区地址的组成规则,对所述多级地...
【专利技术属性】
技术研发人员:王斌,王世卿,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。