【技术实现步骤摘要】
地址标准化方法、装置、计算机设备及可读存储介质
[0001]本申请涉及数据处理领域,尤其涉及一种地址标准化方法
、
装置
、
计算机设备及可读存储介质
。
技术介绍
[0002]在银行等各类场景中,地址信息是一项常见的用户信息,如户籍地址
、
单位地址
、
寄卡地址等等
。
地址是一个连接广大的人
、
物
、
事的关键桥梁,这类信息对于客户画像
、
精准营销
、
风控反欺诈等工作有着非常重要的意义
。
然而在实际应用中,用户地址信息往往不规范,作为典型的非结构化信息,地址数据如何被有效识别与精确计算存在着以下无法回避的问题:
[0003]我国的地址标准化发展起步较晚,各界人士缺乏地址标准化的需求和意识
。
同时,由于中国地理面积巨大,人口众多,由于历史和环境原因,导致各个地市命名并不规范,难以总结出一个具有通用性的地址模型
。
从各行业采集来的地址数据,因应用目的不同,而导致数据格式多样,描地名命名方式不统一,地址描述的详细程度各异,整个行业缺乏公共的可参考的地名数据库
。
另外,中文属于表意文字,不但存在相同的词语在不同的情景下表示不同地址要素的含义,而且也存在不同中文词语表示同一地名的情况,例如,人们习惯称呼为“XX
路
XX
号”,而有的人就只称呼“XX
金融 ...
【技术保护点】
【技术特征摘要】
1.
一种地址标准化方法,其特征在于,所述方法包括:根据地址库中的地址构建字典树;构建基于字典树的
AC
自动机;获取待匹配的地址字符,根据所述
AC
自动机对所述待匹配的地址字符按照预设规则进行拆分和匹配,得到输出结果
。2.
根据权利要求1所述的地址标准化方法,其特征在于,所述地址库包括行政区地址库和其它等级地址库;所述根据地址库中的地址构建字典树,包括:将所述行政区地址库和所述其它等级地址库中的每个地址拆分为第一地址和第二地址,所述第一地址包括地址名称,所述第二地址包括所述地址名称和关键词;将所述第一地址和所述第二地址按照字典序进行字典树的构建
。3.
根据权利要求2所述的地址标准化方法,其特征在于,所述字典树的每个结点具有以下三种状态中的一种:转移成功且可输出
、
转移成功但不可输出
、
转移失败
。4.
根据权利要求1所述的地址标准化方法,其特征在于,所述字典树为双数组字典树,双数组包括
base
数组和
check
数组,所述
base
数组用于存储所述字典树的各个结点当前的状态信息以进行字符状态转移,所述
check
数组用于验证地址字符是否由同一个状态转移而来
。5.
根据权利要求4所述的地址标准化方法,其特征在于,所述构建基于字典树的
AC
自动机,包括:补充字典树的每个结点的状态信息,设置地址匹配失败时跳转的匹配路径;增加
fail
数组,将所述
fail
数组中状态...
【专利技术属性】
技术研发人员:张玉霞,刘玲,王丽虹,王朋飞,刘欢,
申请(专利权)人:平安银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。