地址信息标准化方法、装置、设备与介质制造方法及图纸

技术编号:34257996 阅读:47 留言:0更新日期:2022-07-24 13:09
本发明专利技术涉及计算机技术领域,公开了一种地址信息标准化方法、装置、设备与介质。本发明专利技术通过获取地址信息的原始文本;对所述原始文本进行候选实体搜索,得到对应的候选实体,其中,候选实体搜索包括图数据库查询和正则匹配中的一种或多种;基于预先创建好的初始化算法模型,对所述候选实体进行动态规划最优实体路径搜索,得到地址信息的标准化结果。本发明专利技术解决了数据端扩展性差、查询效率低下和模型端地址标准化准确率低的问题,优化了地址信息标准化的效果。的效果。的效果。

Address information standardization method, device, equipment and medium

【技术实现步骤摘要】
地址信息标准化方法、装置、设备与介质


[0001]本专利技术涉及计算机
,尤其涉及一种地址信息标准化方法、装置、设备与介质。

技术介绍

[0002]在众多的行业场景中,都会涉及到地址相关的信息,而往往原始的地址信息都是来源于用户文本信息,在这些地址信息应用于模型特征、数据处理之前都需要对地址信息进行标准化处理,一种地址信息标准化处理的方法为将自然语言转换为SQL查询语言,运用该SQL查询语言在对应的Mysql关系型数据库中进行匹配,运用传统的匹配规则,得到标准化的地址信息。
[0003]SQL查询语言是基于Mysql关系型数据库实现的结构化查询语言,操作十分简单,即使用户不掌握SQL查询的编写基础,也能完成数据库查询操作,且SQL查询语言依托深度学习方法的兴起和自然语言技术的迅猛发展,进一步发展为两步式NL2SQL查询方法。
[0004]然而,当该两步式NL2SQL方法应用于具体场景时,并没有对垂直领域的数据表内容和数据类型进行建模,这导致一些查询问法的泛化适应性较差、识别率较低、识别速度慢等。而现有的标地址准化处理方法都依赖上述两步式NL2SQL查询方法,在面对相对复杂的、并发量较大的地址信息时,准确率较低、查询性能差且缺乏扩展性,地址信息标准化的效果差。

技术实现思路

[0005]本专利技术的主要目的在于提出一种地址信息标准化方法、装置、设备与介质,旨在解决地址信息标准化准确率低、性能差以及缺乏扩展性导致的标准化效果问题。
[0006]为实现上述目的,本专利技术提供一种地址信息标准化方法,所述地址信息标准化方法包括如下步骤:
[0007]获取地址信息的原始文本;
[0008]对所述原始文本进行候选实体搜索,得到对应的候选实体,其中,候选实体搜索包括图数据库查询和正则匹配中的一种或多种;
[0009]基于预先创建好的初始化算法模型,对所述候选实体进行动态规划最优实体路径搜索,得到地址信息的标准化结果。
[0010]优选地,所述获取地址信息的原始文本的步骤包括:
[0011]基于所述地址信息的原始文本,对所述原始文本进行预处理,得到预处理后的原始文本;
[0012]其中,进行预处理的方式包括全半角转换,无意义特殊符号清洗以及特殊文字处理中的一种或多种。
[0013]优选地,所述对所述原始文本进行候选实体搜索,得到对应的候选实体的步骤包括:
[0014]对所述原始文本进行基于Neo4j图数据库查询,获得与原始文本对应的地址实体以及地址实体对应的上级关系;
[0015]对所述原始文本进行正则匹配,确定与原始文本对应的地址实体不存在的下级关系;
[0016]对所述地址实体、地址实体的上级关系以及地址实体不存在的下级关系进行统一融合处理,得到对应的候选实体。
[0017]优选地,所述对所述原始文本进行基于Neo4j图数据库查询,获得与原始文本对应的地址实体以及地址实体对应的上级关系的步骤包括:
[0018]对所述原始文本进行全切词处理,得到全切词后的文本片段;
[0019]将所述文本片段输入Neo4j图数据库的数据模型,查询所述Neo4j图数据库中与文本片段对应的地址实体以及地址实体的上级关系。
[0020]优选地,所述基于预先创建好的初始化算法模型,所述基于预先创建好的初始化算法模型,对所述候选实体进行动态规划最优实体路径搜索,得到地址信息的标准化结果的步骤包括:
[0021]将所述候选实体输入所述初始化算法模型,初始化所述候选实体中地址实体的权值分数;
[0022]基于所述候选实体的权值分数,对所述候选实体进行动态规划最优实体路径搜索,确定候选路径;
[0023]基于所述候选路径,确定所述地址信息的标准化结果。
[0024]优选地,所述基于所述候选实体的权值分数,对所述候选实体进行动态规划最优实体路径搜索,确定候选路径的步骤包括:
[0025]对所述候选实体进行全路径搜索,得到全路径搜索后候选实体对应的地址片段;
[0026]基于所述地址片段,进行动态加减分规划,得到候选路径的地址片段对应的权值分数;
[0027]基于所述权值分数,确定所述权值分数达到预设标准的候选路径。
[0028]优选地,所述对所述原始文本进行候选实体搜索,得到对应的候选实体的步骤之前,所述地址信息标准化方法还包括创建Neo4j图数据库,具体包括:
[0029]获取省、省对应的市、市对应的区的地址信息;
[0030]对所述地址信息进行数据加工,得到所述省、市、区地址信息对应的地址数据,其中,数据加工的方式包括清洗无效数据和融合地址节点中的一种或多种;
[0031]通过内置过程函数APOC将所述省、市、区的地址数据导入Neo4j图数据库;
[0032]基于所述地址数据,规划设计所述Neo4j图数据库的节点、属性以及边关系,确定对应的Neo4j图数据库。
[0033]优选地,在所述基于预先创建好的初始化算法模型,对所述候选实体进行地址标准化全路径搜索,得到地址信息的标准化结果的步骤之前,地址信息标准化方法还包括创建初始化算法模型,具体包括:
[0034]基于所述Neo4j图数据库的节点、属性以及边关系,获取地址实体之间的地址路径;
[0035]根据所述Neo4j图数据库中的地址路径,对所述初始化算法模型中地址实体进行
加权处理,得到所述地址实体的初始化权值;
[0036]根据所述Neo4j图数据库中地址实体的初始化权值,设置进行动态规划的加减分规则,得到初始化算法模型。
[0037]此外,为实现上述目的,本专利技术还提供一种地址信息标准化装置,所述地址信息标准化装置包括:
[0038]获取模块,用于获取地址信息的原始文本;
[0039]搜索模块,用于对所述原始文本进行候选实体搜索,得到对应的候选实体,其中,候选实体搜索包括图数据库查询和正则匹配中的一种或多种;
[0040]确定模块,用于基于预先创建好的初始化算法模型,对所述候选实体进行动态规划最优实体路径搜索,得到地址信息的标准化结果。
[0041]优选地,设置模块还用于:
[0042]获取省、省对应的市、市对应的区的地址信息;
[0043]对所述地址信息进行数据加工,得到所述省、市、区地址信息对应的地址数据,其中,数据加工的方式包括清洗无效数据和融合地址节点中的一种或多种;
[0044]通过内置过程函数APOC将所述省、市、区的地址数据导入Neo4j图数据库;
[0045]基于所述地址数据,规划设计所述Neo4j图数据库的节点、属性以及边关系,确定对应的Neo4j图数据库。
[0046]优选地,设置模块还用于:
[0047]基于所述Neo4j图数据库的节点、属性以及边关系,获取地址实体之间的地址路径;
[0048]根据所述Neo4j图数据库中的地址路径,对所述初始化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址信息标准化方法,其特征在于,所述地址信息标准化方法包括如下步骤:获取地址信息的原始文本;对所述原始文本进行候选实体搜索,得到对应的候选实体,其中,所述候选实体搜索包括图数据库查询和正则匹配中的一种或多种;基于预先创建好的初始化算法模型,对所述候选实体进行动态规划最优实体路径搜索,得到地址信息的标准化结果;所述获取地址信息的原始文本的步骤包括:基于所述地址信息的原始文本,对所述原始文本进行预处理,得到预处理后的原始文本;其中,进行预处理的方式包括全半角转换,无意义特殊符号清洗以及特殊文字处理中的一种或多种。2.如权利要求1所述的地址信息标准化方法,其特征在于,所述对所述原始文本进行候选实体搜索,得到对应的候选实体的步骤包括:对所述原始文本进行基于Neo4j图数据库查询,获得与原始文本对应的地址实体以及地址实体对应的上级关系;对所述原始文本进行正则匹配,确定与原始文本对应的地址实体不存在的下级关系;对所述地址实体、地址实体的上级关系以及地址实体不存在的下级关系进行统一融合处理,得到对应的候选实体。3.如权利要求2所述的地址信息标准化方法,其特征在于,所述对所述原始文本进行基于Neo4j图数据库查询,获得与原始文本对应的地址实体以及地址实体对应的上级关系的步骤包括:对所述原始文本进行全切词处理,得到全切词后的文本片段;将所述文本片段输入Neo4j图数据库的数据模型,查询所述Neo4j图数据库中与文本片段对应的地址实体以及地址实体的上级关系。4.如权利要求1所述的地址信息标准化方法,其特征在于,所述基于预先创建好的初始化算法模型,对所述候选实体进行动态规划最优实体路径搜索,得到地址信息的标准化结果的步骤包括:将所述候选实体输入所述初始化算法模型,初始化所述候选实体中地址实体的权值分数;基于所述候选实体的权值分数,对所述候选实体进行动态规划最优实体路径搜索,确定候选路径;基于所述候选路径,确定所述地址信息的标准化结果。5.如权利要求4所述的地址信息标准化方法,其特征在于,所述基于所述候选实体的权值分数,对所述候选实体进行动态规划最优实体路径搜索,确定候选路径的步骤包括:对所述候选实体进行全路径搜索,得到全路径搜索后候选实体对应的地址片段;基于所述地址片段,进行动态加减分规划,得到候选路径的地址片段对应的权值...

【专利技术属性】
技术研发人员:刘攀李金龙张梦易徐洁馨贺瑶函
申请(专利权)人:招商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1