地址处理方法及相关设备技术

技术编号:37768105 阅读:7 留言:0更新日期:2023-06-06 13:30
本申请提供一种地址处理方法及相关设备,地址处理方法包括:获取待处理地址,待处理地址包括N个字符,N为正整数;获取待处理地址的语义特征向量以及N个字符中每个字符的字符特征向量;基于N个字符的字符特征向量进行地址等级分类,得到N个字符中每个字符的地址等级分类结果;基于N个字符的地址等级分类结果、N个字符的字符特征向量以及语义特征向量,对待处理地址进行纠正处理得到目标地址。由于在对待处理地址进行纠正处理得到目标地址过程中,考虑了待处理地址的语义特征信息,还考虑了N个字符的字符特征向量以及N个字符的地址等级分类结果,使用了较多的特征信息,从而提高了目标地址的准确性。目标地址的准确性。目标地址的准确性。

【技术实现步骤摘要】
地址处理方法及相关设备


[0001]本申请涉及数据处理
,尤其涉及到一种地址处理方法及相关设备。

技术介绍

[0002]在日常生活中,有很多地方会涉及到地址文本,譬如:身份证光学字符识别(OCR)、购物网站、快递单等。但这些地址文本会存在一定的误识别,或者地址填写错误的情况。从而需要对地址文本进行判别,如果是人来判别,会耗费大量人力资源。
[0003]目前,常用的一种方法,是通过地址匹配,即在数据库中进行地址比对,查找与待匹配地址匹配的地址,得到匹配的地址。然而,通过这种方式,原本错误的地址分词较容易匹配出与原本错误地址分词一样的地址,得到的匹配地址仍然是错误的,从而导致得到的地址准确性较低。

技术实现思路

[0004]本申请实施例提供一种地址处理方法及相关设备,有利于提高地址处理得到的目标地址的准确率和可靠性。
[0005]为了解决上述技术问题,本申请是这样实现的:
[0006]第一方面,本申请实施例提供了一种地址处理方法,包括:
[0007]获取待处理地址,所述待处理地址包括N个字符,N为正整数;
[0008]获取所述待处理地址的语义特征向量以及所述N个字符中每个字符的字符特征向量,所述语义特征向量用于表征所述待处理地址的全局语义信息,所述字符特征向量用于表征字符语义信息;
[0009]基于所述N个字符的字符特征向量对所述N个字符进行地址等级分类,得到所述N个字符中每个字符的地址等级分类结果,所述字符的地址等级分类用于表示所述字符所属的地址等级,所述地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级;
[0010]基于所述N个字符的地址等级分类结果、所述N个字符的字符特征向量以及所述语义特征向量,对所述待处理地址进行纠正处理,得到目标地址。
[0011]第二方面,本申请实施例还提供一种地址处理装置,包括:
[0012]第一获取模块,用于获取待处理地址,所述待处理地址包括N个字符,N为正整数;
[0013]第二获取模块,用于获取所述待处理地址的语义特征向量以及所述N个字符中每个字符的字符特征向量,所述语义特征向量用于表征所述待处理地址的全局语义信息,所述字符特征向量用于表征字符语义信息;
[0014]等级分类模块,用于基于所述N个字符的字符特征向量对所述N个字符进行地址等级分类,得到所述N个字符中每个字符的地址等级分类结果,所述字符的地址等级分类用于表示所述字符所属的地址等级,所述地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级;
[0015]纠正处理模块,用于基于所述N个字符的地址等级分类结果、所述N个字符的字符
特征向量以及所述语义特征向量,对所述待处理地址进行纠正处理,得到目标地址。
[0016]第三方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述地址处理方法中的步骤。
[0017]第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述地址处理方法中的步骤。
[0018]可以看出,本实施例中,在对待处理地址进行纠正处理得到目标地址过程中,考虑了待处理地址的语义特征向量,而且还考虑了待处理地址中N个字符的字符特征向量以及N个字符的地址等级分类结果,使用了较多的特征信息,由于语义特征向量用于表示待处理地址的全局语义信息,N个字符的字符特征向量用于表示字符语义信息,N个字符的地址等级分类结果用于表示字符所属的地址等级,因此,在对地址处理纠正处理得到目标地址的过程中,结合了待处理地址的全局语义信息、字符语义信息以及字符所属的地址等级,可以实现对待处理地址更好的效果,如此,有利于提高地址纠正的准确性和可靠性,从而可提高得到的目标地址的准确性和可靠性。
附图说明
[0019]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本申请实施例提供的一种地址处理方法的流程图之一;
[0021]图2是本申请实施例提供的一种地址处理方法的流程图之二;
[0022]图3是本申请实施例提供的一种地址处理方法的原理图;
[0023]图4是本申请实施例提供的一种地址处理装置的结构示意图;
[0024]图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]参见图1,图1是本申请实施例提供的一种地址处理方法的流程图,如图1所示,包括以下步骤:
[0027]步骤101:获取待处理地址,待处理地址包括N个字符,N为正整数;
[0028]本实施例的地址处理方法可应用电子设备,电子设备可以是移动设备或非移动设备。需要说明的是,获取待处理地址的方式有多种,不作具体限定,例如,上述待处理地址可以是输入到电子设备中待处理的地址信息,也可以是电子设备获取包括地址信息的图像信息,通过对图像信息进行文字识别得到该待处理地址等。示例性地,电子设备可进行拍摄获
得上述图像信息,也可以通过扫描获得上述图像信息等。
[0029]步骤102:获取待处理地址的语义特征向量以及N个字符中每个字符的字符特征向量;
[0030]其中,语义特征向量用于表征待处理地址的全局语义信息,字符特征向量用于表征字符语义信息,可以理解,语义特征向量可表征待处理地址整体的语义信息,字符的字符特征向量可表征该字符的语义信息,相当于待处理地址局部的语义信息。待处理地址中包括N个字符,可获取N个字符中每个字符的字符特征向量。例如,语义特征向量可以是CLS向量,字符特征向量可以是Token向量。
[0031]步骤103:基于N个字符的字符特征向量对N个字符进行地址等级分类,得到N个字符中每个字符的地址等级分类结果。
[0032]其中,字符的地址等级分类用于表示字符所属的地址等级,地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级。
[0033]在本实施例中,可利用字符的字符特征向量对该字符进行地址等级分类,从而,得到字符的地址等级分类结果,由于字符的字符特征向量可准确地表示字符语义信息,即表征了字符的语义信息,从而利用字符的字符特征向量对该字符进行地址等级分类,可提高地址等级分类准确性。在本实施例中,可预先根据行政区划确定至少一个地址等级,在确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址处理方法,其特征在于,包括:获取待处理地址,所述待处理地址包括N个字符,N为正整数;获取所述待处理地址的语义特征向量以及所述N个字符中每个字符的字符特征向量,所述语义特征向量用于表征所述待处理地址的全局语义信息,所述字符特征向量用于表征字符语义信息;基于所述N个字符的字符特征向量对所述N个字符进行地址等级分类,得到所述N个字符中每个字符的地址等级分类结果,所述字符的地址等级分类用于表示所述字符所属的地址等级,所述地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级;基于所述N个字符的地址等级分类结果、所述N个字符的字符特征向量以及所述语义特征向量,对所述待处理地址进行纠正处理,得到目标地址。2.根据权利要求1所述的方法,其特征在于,所述N个字符的地址等级分类结果包括M类地址等级,M为正整数;所述基于所述N个字符的地址等级分类结果、所述N个字符的字符特征向量以及所述语义特征向量,对所述待处理地址进行纠正处理,得到目标地址,包括:获取所述M类地址等级中每类地址等级的特征向量集,其中,第一类地址等级的特征向量集包括属于所述第一类地址等级的各个字符的字符特征向量,所述第一类地址等级为所述M类地址等级中的任一类地址等级;将所述M类地址等级中每类地址等级的特征向量集中各个字符特征向量与所述语义特征向量进行合并,得到M个目标特征向量;基于所述M个目标特征向量对所述待处理地址进行纠正处理,得到所述目标地址。3.根据权利要求2所述的方法,其特征在于,所述基于所述M个目标特征向量对所述待处理地址进行纠正处理,得到所述目标地址,包括:针对所述M个目标特征向量中的每个目标特征向量,从M个地址识别模型中获取与所述目标特征向量对应类地址等级对应的目标地址识别模型,所述M个地址识别模型与所述M类地址等级一一对应;将所述目标特征向量输入所述目标地址识别模型进行地址识别,确定所述目标特征向量对应的子地址;对所述M个目标特征向量的子地址进行合并,得到所述目标地址,其中,一个子地址为一类地址等级的地址。4.根据权利要求3所述的方法,其特征在于,所述目标地址识别模型包括目标双向长短词记忆模块和目标分类模块;其中,所述将所述目标特征向量输入所述目标地址识别模型进行地址识别,确定所述目标特征向量对应的子地址,包括:将所述目标特征向量输入所述双向长短词记忆模块,得到所述目标特征向量对应的概率向量,所述概率向量中包括目标字符组合为子地址序列中每个子地址的概率,所述子地址序列中包括所述目标特征向量对应类地址等级对应的多个子地址,所述目标字符组合为目标特征向量集对应的各字符的组合,所述目标特征向量集为所...

【专利技术属性】
技术研发人员:罗奇帅肖冰曹磊李长林
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1