一种多源地址信息识别方法及装置制造方法及图纸

技术编号:37529236 阅读:13 留言:0更新日期:2023-05-12 15:55
本文提供了一种多源地址信息识别方法及装置,方法包括:根据业务场景及业务场景中数据表,获取业务场景下各数据表的表结构信息及表数据信息;对业务场景下各数据表的表结构信息进行地址字符标注处理,得到各数据表表结构信息的地址属性;根据各数据表表结构信息的地址属性,从表数据信息中获取地址文本;对获取的地址文本进行规范化处理,将业务场景下各用户在每两个数据表中的规范化后的地址文本输入至预先确定的识别模型中,得到业务场景下各用户的每两个数据表中地址的匹配结果。本文能够对电网数据中的地址数据信息质量进行全面核查,通过确定业务场景下各用户的每两个数据表中地址的匹配结果可确定用户地址的一致性。表中地址的匹配结果可确定用户地址的一致性。表中地址的匹配结果可确定用户地址的一致性。

【技术实现步骤摘要】
一种多源地址信息识别方法及装置


[0001]本文涉及文本识别领域,尤其涉及一种多源地址信息识别方法及装置。

技术介绍

[0002]在企业数据治理过程中,如何对非结构化数据进行有效治理,是影响数据治理整体效果的关键因素。文本数据作为非结构化数据的典型代表,具有规模庞大、价值密度低、利用难度高等特点。因此,如何有效对文本数据进行处理,高效提取其中有价值的信息,是数据治理过程中必不可少的一环。
[0003]现有技术中,对于文本数据中地址实体的识别主要有如下两种方法:
[0004]一种是利用传统的神经网络模型(CNN、RNN)进行实体地址识别,该种方法无法解决自然语言句子中的长程依赖等问题,从而存在识别的准确率低的问题,另该方法不适用于电网数据的地址识别,未对同一用户在不同数据表中的地址进行匹配,进而无法确定用户在不同数据表中地址的正确性。
[0005]另一种是利用模糊查询方法匹配地址,该方法在面对复杂的文本数据时,存在识别效率低及灵活度低的问题,另该方法同样不适用于电网数据的地址识别,未对同一用户在不同数据表中的地址进行匹配。

技术实现思路

[0006]本文用于解决现有技术中文本中地址识别存在准确率出差及效率低的问题,以及无法核查各用户在各数据表中地址信息的一致性。
[0007]为了解决上述技术问题,本文一方面提供一种多源地址信息识别方法,包括:
[0008]根据业务场景及业务场景中数据表,获取业务场景下各数据表的表结构信息及表数据信息;
[0009]对业务场景下各数据表的表结构信息进行地址字符标注处理,得到各数据表表结构信息的地址属性;
[0010]根据各数据表表结构信息的地址属性,从表数据信息中获取地址文本;
[0011]对获取的地址文本进行规范化处理,将业务场景下各用户在每两个数据表中的规范化后的地址文本输入至预先确定的识别模型中,得到业务场景下各用户的每两个数据表中地址的匹配结果;
[0012]其中,所述识别模型包括:词向量转换模型及地址文本语义匹配模型,词向量转换模型用于将规范化后的地址文本转换为词向量,地址文本语义匹配模型用于计算每两个数据表地址文本的词向量之间的匹配结果。
[0013]作为本文进一步实例中,对业务场景下各数据表的表结构信息进行地址字符标注处理,得到各数据表表结构信息的地址属性,包括:
[0014]对业务场景下各数据表的表结构信息进行地址字符标注处理;
[0015]提取各数据表表结构信息的标注结果中表示地址字符的标注结果,得到各数据表
的地址属性。
[0016]作为本文进一步实例中,对业务场景下各数据表的结构信息进行地址字符标注处理,包括:
[0017]根据预设规范地址,识别业务场景下各数据表的结构信息中的地址字符;
[0018]设置首个地址字符为第一标识,其余地址字符为第二标识;
[0019]设置各数据表的结构信息中的非地址字符为第三标识。
[0020]作为本文进一步实例中,对地址文本进行规范化处理,包括:
[0021]根据地址俗称库,将地址文本中的地址俗称替换为标准地址,其中,地址俗称库中存储有地址俗称与标准地址之间的关联关系;
[0022]对地址文本进行繁转简及重复文字删除处理,得到规范化的地址文本。
[0023]作为本文进一步实例中,所述词向量转换模型为word2vec模型,所述地址文本语义匹配模型为ESIM模型。
[0024]作为本文进一步实例中,多源地址信息识别方法还包括:
[0025]对于匹配结果为失败的用户及数据表,建立核查信息;
[0026]将核查信息发送至业务人员处理。
[0027]本文第二方面提供一种多源地址信息识别装置,包括:
[0028]信息获取单元,用于根据业务场景及业务场景中数据表,获取业务场景下各数据表的表结构信息及表数据信息;
[0029]地址标注单元,用于对业务场景下各数据表的表结构信息进行地址字符标注处理,得到各数据表表结构信息的地址属性;
[0030]地址文本获取单元,用于根据各数据表表结构信息的地址属性,从表数据信息中获取地址文本;
[0031]规范化处理及匹配单元,用于对获取的地址文本进行规范化处理,将业务场景下各用户在每两个数据表中的规范化后的地址文本输入至预先确定的识别模型中,得到业务场景下各用户的每两个数据表中地址的匹配结果;
[0032]其中,所述识别模型包括:词向量转换模型及地址文本语义匹配模型,词向量转换模型用于将规范化后的地址文本转换为词向量,地址文本语义匹配模型用于计算每两个数据表地址文本的词向量之间的匹配结果。
[0033]本文第三方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述任一示例所述方法。
[0034]本文第四方面提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述方法。
[0035]本文第五方面提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述的方法。
[0036]本文提供的多源地址信息识别方法及装置,适用于电网数据中多源地址信息,通过根据业务场景及业务场景中数据表,获取业务场景下各数据表的表结构信息及表数据信息;对业务场景下各数据表的表结构信息进行地址字符标注处理,得到各数据表表结构信息的地址属性;根据各数据表表结构信息的地址属性,从表数据信息中获取地址文本,能够
解决当前电网数据中地址信息数据量庞大,无法全量进行地址数据信息质量核查和数据治理的问题,以业务场景为单位开展数据规范化处理及获取,能够提高地址文本的获取效率及准确性,解决实际生产中,地址信息治理工作的难以开展的难点。通过对获取的地址文本进行规范化处理,将业务场景下各用户在每两个数据表中的规范化后的地址文本输入至预先确定的识别模型中,得到业务场景下各用户的每两个数据表中地址的匹配结果,进而根据匹配结果可确定用户地址的一致性。
[0037]为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
[0038]为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1示出了本文实施例多源地址信息识别方法的第一流程图;
[0040]图2示出了本文实施例对地址文本进行规范化处理过程的流程图;
[0041]图3示出了本文实施例多源地址信息识别方法的第二流程图;
[0042]图4示出了本文实施例多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源地址信息识别方法,其特征在于,包括:根据业务场景及业务场景中数据表,获取业务场景下各数据表的表结构信息及表数据信息;对业务场景下各数据表的表结构信息进行地址字符标注处理,得到各数据表表结构信息的地址属性;根据各数据表表结构信息的地址属性,从表数据信息中获取地址文本;对获取的地址文本进行规范化处理,将业务场景下各用户在每两个数据表中的规范化后的地址文本输入至预先确定的识别模型中,得到业务场景下各用户的每两个数据表中地址的匹配结果;其中,所述识别模型包括:词向量转换模型及地址文本语义匹配模型,词向量转换模型用于将规范化后的地址文本转换为词向量,地址文本语义匹配模型用于计算每两个数据表地址文本的词向量之间的匹配结果。2.如权利要求1所述的方法,其特征在于,对业务场景下各数据表的表结构信息进行地址字符标注处理,得到各数据表表结构信息的地址属性,包括:对业务场景下各数据表的表结构信息进行地址字符标注处理;提取各数据表表结构信息的标注结果中表示地址字符的标注结果,得到各数据表的地址属性。3.如权利要求2所述的方法,其特征在于,对业务场景下各数据表的结构信息进行地址字符标注处理,包括:根据预设规范地址,识别业务场景下各数据表的结构信息中的地址字符;设置首个地址字符为第一标识,其余地址字符为第二标识;设置各数据表的结构信息中的非地址字符为第三标识。4.如权利要求1所述的方法,其特征在于,对地址文本进行规范化处理,包括:根据地址俗称库,将地址文本中的地址俗称替换为标准地址,其中,地址俗称库中存储有地址俗称与标准地址之间的关联关系;对地址文本进行繁转简及重复文字删除处理,得到规范化的地址文本。5.如权利要求...

【专利技术属性】
技术研发人员:王艺霏马跃梁东娄竞邢宁哲李信陈重韬王骏王畅温馨张海明尚芳剑李欣怡梁潇刘卫卫姚艳丽王森庞思睿苏丹那琼澜周子阔姜蕴洲曲洪泽王晓慧黄复鹏安宁钰雷舒娅张文思
申请(专利权)人:国网智能电网研究院有限公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1