用于对地址文本进行解析的方法、装置、系统和存储介质制造方法及图纸

技术编号:30494047 阅读:9 留言:0更新日期:2021-10-27 22:23
本公开涉及对地址文本进行解析的方法、装置、系统和计算机介质。该方法包括通过第一双向循环神经网络对与地址文本中的每个字对应的编码序列进行处理,以得到用于指示所述地址文本的语义信息的特征矩阵和第一双向循环神经网络的输出矩阵;通过第二双向循环神经网络对所述输出矩阵进行处理,以确定所述地址文本中的每个字所属的类别;通过多层全连接神经网络对所述特征矩阵进行处理,以识别与所述地址文本对应的各级行政区划地址信息;以及根据所述地址文本中的每个字所属的类别和所识别的各级行政区划地址信息,确定所述地址文本的各级行政区划地址信息和非行政区划地址信息。根据上述方案,能够更准确且完整地解析出地址文本的各层级地址信息。本的各层级地址信息。本的各层级地址信息。

【技术实现步骤摘要】
用于对地址文本进行解析的方法、装置、系统和存储介质


[0001]本公开涉及数据处理领域,更具体地,本公开涉及数据处理领域中的用于对地址文本进行解析的方法、装置、系统和计算机可读存储介质。

技术介绍

[0002]在信息飞速发展的今天,数据自动化处理越来越得到人们的重视。例如,对于任意的地址文本,人们希望能够尽量准确地识别地址文本中包含的诸如省、市、区/县之类的行政区划地址信息和诸如街道、小区名、单元号、门牌号之类的非行政区划地址信息,从而构建出地址文本完整的结构化地址信息。
[0003]目前,对中文地址文本进行解析的传统方式主要包括两类。一类是将地址文本作为普通文本进行切词处理以得到切词序列,然后通过构建语法结构树来识别不同的词在文本中的语法结构。该方式虽然能够得到不同的词语,但是难以区别不同词语在地址层级上的相互关系,从而难以对地址文本进行层次化识别。另外,如果切词处理不当,将使切词引入的错误累积而影响对语法结构的判断,并且语法结构树的使用要求输入的地址文本的格式具有特定规则,从而不能对任意地址文本进行解析。另一类是预先设置匹配规则,接着按照规则进行匹配以找到地址中的相应层级信息。虽然该方式能够识别地址文本中具有关键词的地址信息,但是如果地址文本不完整或缺少关键词,则难以准确地对地址文本进行层次化识别,并且如果错误匹配的话将进一步导致识别的地址信息不准确。
[0004]由于目前对中文地址文本进行解析的方式准确率都不高,因此在解析之后常常需要人工进行审核以纠错。但是,由于审核人员只能通过肉眼对经解析的地址信息进行审核,因此在繁重的工作下,容易出现错误或遗漏,难以使地址解析的准确率得到改进。
[0005]另外,现有的解析方式不仅准确率不高,而且如果地址文本缺少某个或某些行政区划地址信息,则难以对其进行补全,从而难以得到诸如省、市、区/县、街道、小区之类的层次化的地址信息。

技术实现思路

[0006]本公开提供了一种用于对地址文本进行解析的方法、装置、系统和计算机可读存储介质,能够更准确且完整地识别地址文本的地址信息。
[0007]根据本公开的一方面,提供了一种用于对地址文本进行解析的方法。该方法包括:通过第一双向循环神经网络对与地址文本中的每个字对应的编码序列进行处理,以得到用于指示所述地址文本的语义信息的特征矩阵和第一双向循环神经网络的输出矩阵;通过第二双向循环神经网络对所述输出矩阵进行处理,以确定所述地址文本中的每个字所属的类别;通过多层全连接神经网络对所述特征矩阵进行处理,以识别与所述地址文本对应的各级行政区划地址信息;以及根据所述地址文本中的每个字所属的类别和所识别的各级行政区划地址信息,确定所述地址文本的各级行政区划地址信息和非行政区划地址信息。
[0008]根据本公开的另一方面,提供了一种用于对地址文本进行解析的装置。该装置包
括用于执行上述方法的步骤的部件。
[0009]根据本公开的再一方面,提供了一种用于对地址文本进行解析的装置。该装置包括:存储器,所述存储器存储有计算机可执行指令;以及处理器,所述处理器与所述存储器耦接,所述计算机可执行指令当被所述处理器执行时使所述处理器执行上述方法。
[0010]根据本公开的又一方面,提供了一种计算机可读存储介质。该介质存储有计算机可执行指令,所述计算机可执行指令当被处理器执行时使所述处理器执行上述方法。
[0011]根据上述技术方案,通过利用第一和第二双向循环神经网络,能够在逐字的基础上识别地址文本本身包含的相应层级的地址信息。利用多层全连接神经网络,根据第一双向循环神经网络提取出的地址文本特征信息,能够全面地识别与地址文本对应的各级行政区划地址信息,从而能够补全地址文本可能缺失的行政区划地址信息。通过将上述识别的两类地址信息进行组合,能够更准确且完整地解析出地址文本的行政区划地址信息和非行政区划地址信息。此外,由于上述技术方案对地址文本的格式没有特别要求,因此能够解析任意格式的地址文本,从而具有更强的通用性。
[0012]通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
[0013]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0014]图1是根据本公开实施例的用于对地址文本进行解析的方法的流程图。
[0015]图2是根据本公开实施例的双向循环神经网络的结构示意图。
[0016]图3是根据本公开实施例的用于对地址文本进行解析的解析模型的功能框图。
[0017]图4是根据本公开实施例的用于对解析模型进行训练的方法的流程图。
[0018]图5是根据本公开实施例的用于对解析模型进行训练的另一方法的流程图。
[0019]图6是根据本公开实施例的用于对地址文本进行解析的装置的结构框图。
[0020]图7是根据本公开实施例的用于对地址文本进行解析的另一装置的结构框图。
具体实施方式
[0021]现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0022]同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0023]首先,参考图1描述根据本公开实施例的用于对地址文本进行解析的方法100的流程图。
[0024]在S110中,通过双向循环神经网络对与地址文本中的每个字对应的编码序列进行处理,以得到用于指示地址文本的语义信息的特征矩阵和双向循环神经网络的输出矩阵。
[0025]具体而言,按字对待解析的地址文本进行拆分,以得到文本字符序列。对于文本字符序列中的每个字符,对其进行编码以转换成编码序列。例如,可以通过向量化模型对代表每个字的字符进行映射,从而将每个字映射为一个1*N的编码序列。对于包含M个字的地址文本,可以通过向量化模型的映射,得到M*N大小的向量化矩阵,其中每一行可以对应一个字的编码序列。这样,实现了文本的向量化,将原始地址文本最终转换为例如浮点型向量化矩阵。用于将文本向量化的向量化模型可以采用本领域技术人员已知的对文本进行向量化的模型。
[0026]确定了地址文本中的每个字的编码序列之后,可以将每个字的编码序列按顺序输入双向循环神经网络。在图2中示出了双向循环神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于对地址文本进行解析的方法,包括:通过第一双向循环神经网络对与地址文本中的每个字对应的编码序列进行处理,以得到用于指示所述地址文本的语义信息的特征矩阵和第一双向循环神经网络的输出矩阵;通过第二双向循环神经网络对所述输出矩阵进行处理,以确定所述地址文本中的每个字所属的类别;通过多层全连接神经网络对所述特征矩阵进行处理,以识别与所述地址文本对应的各级行政区划地址信息;以及根据所述地址文本中的每个字所属的类别和所识别的各级行政区划地址信息,确定所述地址文本的各级行政区划地址信息和非行政区划地址信息。2.根据权利要求1所述的方法,其中,所述特征矩阵是通过以下操作得到的:将与地址文本中的每个字对应的编码序列输入第一双向循环神经网络进行处理;以及在将所述地址文本中的每个字全部输入第一双向循环神经网络进行处理之后,第一双向循环神经网络的后向路径中的状态矩阵和前向路径中的状态矩阵共同构成所述特征矩阵。3.根据权利要求1所述的方法,其中,所述通过第二双向循环神经网络对所述输出矩阵进行处理,以确定所述地址文本中的每个字所属的类别包括:通过第二双向循环神经网络对所述输出矩阵进行处理,以得到第二双向循环神经网络的状态矩阵;以及根据第二双向循环神经网络的状态矩阵,利用条件随机场算法确定所述地址文本中的每个字所属的类别。4.根据权利要求3所述的方法,其中,所述根据第二双向循环神经网络的状态矩阵,利用条件随机场算法确定所述地址文本中的每个字所属的类别包括:在将第一双向循环神经网络的输出矩阵全部输入第二双向循环神经网络之后,第二双向循环神经网络的后向路径中的状态矩阵和前向路径中的状态矩阵共同构成另一特征矩阵;以及根据所述另一特征矩阵,使用条件随机场算法确定所述地址文本中的每个字所属的类别。5.根据权利要求1所述的方法,其中,所述通过多层全连接神经网络对所述特征矩阵进行处理,以识别与所述地址文本对应的各级行政区划地址信息包括:计算所述特征矩阵和预先根据多个外部标准行政区划地址文本确定的标准地址特征矩阵之间的关联矩阵;以及将所述关联矩阵输入到所述多层全连接神经网络进行处理,以将与所述多层全连接神经网络的输出中的最大值元素对应的预定行政区划地址信息识别为与所述地址文本对应的各级行政区划地址信息。6.根据权利要求1所述的方法,其中,所述标准地址特征矩阵是通过以下...

【专利技术属性】
技术研发人员:华家英黄礼莲高儒振何忠江
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1