地址标准化方法技术

技术编号:39491298 阅读:7 留言:0更新日期:2023-11-24 11:13
本申请公开了一种地址标准化方法

【技术实现步骤摘要】
地址标准化方法、装置、计算机设备及可读存储介质


[0001]本申请涉及数据处理领域,尤其涉及一种地址标准化方法

装置

计算机设备及可读存储介质


技术介绍

[0002]在银行等各类场景中,地址信息是一项常见的用户信息,如户籍地址

单位地址

寄卡地址等等

地址是一个连接广大的人



事的关键桥梁,这类信息对于客户画像

精准营销

风控反欺诈等工作有着非常重要的意义

然而在实际应用中,用户地址信息往往不规范,作为典型的非结构化信息,地址数据如何被有效识别与精确计算存在着以下无法回避的问题:
[0003]我国的地址标准化发展起步较晚,各界人士缺乏地址标准化的需求和意识

同时,由于中国地理面积巨大,人口众多,由于历史和环境原因,导致各个地市命名并不规范,难以总结出一个具有通用性的地址模型

从各行业采集来的地址数据,因应用目的不同,而导致数据格式多样,描地名命名方式不统一,地址描述的详细程度各异,整个行业缺乏公共的可参考的地名数据库

另外,中文属于表意文字,不但存在相同的词语在不同的情景下表示不同地址要素的含义,而且也存在不同中文词语表示同一地名的情况,例如,人们习惯称呼为“XX

XX
号”,而有的人就只称呼“XX
金融中心”,但是实际上两者表示同一地址位置

同时中文地址要素之间没有明显的分隔符,这增加了对地址元素的识别难度

因此,急需一种对各类地址进行标准化的方法


技术实现思路

[0004]基于此,有必要针对上述问题,提出一种地址标准化方法

装置

计算机设备及可读存储介质,能够对地址信息进行标准化

[0005]第一方面,本申请提供一种地址标准化方法,所述方法包括:
[0006]根据地址库中的地址构建字典树;
[0007]构建基于字典树的
AC
自动机;
[0008]获取待匹配的地址字符,根据所述
AC
自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果

[0009]在一些实施例中,所述地址库包括行政区地址库和其它等级地址库;
[0010]所述根据地址库中的地址构建字典树,包括:
[0011]将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址,所述第一地址包括地址名称,所述第二地址包括所述地址名称和关键词;
[0012]将所述第一地址和所述第二地址按照字典序进行字典树的构建

[0013]在一些实施例中,所述字典树的每个结点具有以下三种状态中的一种:转移成功且可输出

转移成功但不可输出

转移失败

[0014]在一些实施例中,所述字典树为双数组字典树,双数组包括
base
数组和
check

组,所述
base
数组用于存储所述字典树的各个结点当前的状态信息以进行字符状态转移,所述
check
数组用于验证地址字符是否由同一个状态转移而来

[0015]在一些实施例中,所述构建基于字典树的
AC
自动机,包括:
[0016]补充字典树的每个结点的状态信息,设置地址匹配失败时跳转的匹配路径;
[0017]增加
fail
数组,将所述
fail
数组中状态信息相同的索引进行关联,以将整个字典树中的状态信息关联

[0018]在一些实施例中,所述根据所述
AC
自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,包括:
[0019]根据所述
AC
自动机对所述待匹配的地址字符进行拆分,得到多个地址片段;
[0020]根据多个地址片段进行匹配,得到输出结果,所述输出结果为地址补充最全的结果

[0021]第二方面,本申请还提供一种地址标准化装置,所述装置包括:
[0022]字典树构建模块,用于根据地址库中的地址构建字典树;
[0023]AC
自动机构建模块,用于构建基于字典树的
AC
自动机;
[0024]处理模块,用于获取待匹配的地址字符,根据所述
AC
自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果

[0025]在一些实施例中,所述地址库包括行政区地址库和其它等级地址库;
[0026]所述字典树构建模块具体用于:
[0027]将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址,所述第一地址包括地址名称,所述第二地址包括所述地址名称和关键词;
[0028]将所述第一地址和所述第二地址按照字典序进行字典树的构建

[0029]第三方面,本申请实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如第一方面任一项所述地址标准化方法的步骤

[0030]第四方面,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如第一方面任一项所述地址标准化方法的步骤

[0031]采用本申请实施例,至少具有如下有益效果:
[0032]本申请实施例根据地址库中的地址构建字典树;构建基于字典树的
AC
自动机;获取待匹配的地址字符,根据
AC
自动机对待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果

通过对地址构建字典树并使用
AC
自动机完成地址标准化,大幅度地提升地址元素匹配的速度

对银行等各业务场景的地址进行有效清理和输出,提高地址信息在营销

反欺诈等领域的应用价值

附图说明
[0033]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0034]其中:
[0035]图1为本申请一个实施例中地址标准化方法的流程示意图;
[0036]图2为本申请一个实施例中步骤
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种地址标准化方法,其特征在于,所述方法包括:根据地址库中的地址构建字典树;构建基于字典树的
AC
自动机;获取待匹配的地址字符,根据所述
AC
自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果
。2.
根据权利要求1所述的地址标准化方法,其特征在于,所述地址库包括行政区地址库和其它等级地址库;所述根据地址库中的地址构建字典树,包括:将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址,所述第一地址包括地址名称,所述第二地址包括所述地址名称和关键词;将所述第一地址和所述第二地址按照字典序进行字典树的构建
。3.
根据权利要求2所述的地址标准化方法,其特征在于,所述字典树的每个结点具有以下三种状态中的一种:转移成功且可输出

转移成功但不可输出

转移失败
。4.
根据权利要求1所述的地址标准化方法,其特征在于,所述字典树为双数组字典树,双数组包括
base
数组和
check
数组,所述
base
数组用于存储所述字典树的各个结点当前的状态信息以进行字符状态转移,所述
check
数组用于验证地址字符是否由同一个状态转移而来
。5.
根据权利要求4所述的地址标准化方法,其特征在于,所述构建基于字典树的
AC
自动机,包括:补充字典树的每个结点的状态信息,设置地址匹配失败时跳转的匹配路径;增加
fail
数组,将所述
fail
数组中状态...

【专利技术属性】
技术研发人员:张玉霞刘玲王丽虹王朋飞刘欢
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1