一种中文地址标准化方法、装置、设备及介质制造方法及图纸

技术编号:34632619 阅读:9 留言:0更新日期:2022-08-24 15:05
本说明书实施例公开了一种中文地址标准化方法、装置、设备及设备,包括:获取预先构建的地址训练集,其中,所述地址训练集包括多个已标注的中文地址数据;根据所述地址训练集训练预先建立的初始模型,得到中文地址标注模型;将待处理的中文地址输入所述中文地址标注模型,得到所述待处理的中文地址对应的行政区划标注结果;通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,所述标准化模型包括预先录入的标准行政区划地址。标准化模型包括预先录入的标准行政区划地址。标准化模型包括预先录入的标准行政区划地址。

【技术实现步骤摘要】
一种中文地址标准化方法、装置、设备及介质


[0001]本说明书涉及计算机
,尤其涉及一种中文地址标准化方法、装置、设备及介质。

技术介绍

[0002]地址信息是基层治理体系中的一个基本的字段,是居民基础信息的重要组成部分,对于快递等行业也起到重要作用。随着基层治理体系和治理能力现代化建设进程的不断深化,对基层基础信息进行标准化成为基层数据治理的基础工作,对于建设和维护基层治理体系具有重要意义。地址信息作为基层治理体系中的一个基本字段,是居民基础信息的一个重要组成部分,对地址信息字段进行标准化处理是基层基础信息标准化的重要工作。与姓名、年龄、身份证号等信息相比,地址信息的长度长,结构化程度弱,都是不规则的字符串形式,因此对地址信息进行标准化难度大,准确率低。
[0003]传统的对地址信息进行标准化的方法包括人工划分和根据经验对部分字段进行半自动化的划分。人工划分顾名思义就是人工将地址字段的内容进行标准化,人为的将地址修改为标准化格式,相对而言人工划分会比较准确,能应对各种不同的地址内容和格式,但是效率很低,要耗费大量人力,且存在一定的操作风险。根据经验进行半自动划分的方法主要依据地址字段的填写经验和规范,利用某些关键字对地址进行切分和拼接,最终形成相对标准的地址形式,这种方法一定程度上提升了地址标准化的效率,但是适应性差,依赖于原始地址信息的质量,对于填写不够标准的地址或遇到某些产生歧义的地名、路名、小区名时,就无法获得准确结果,适配性差。
[0004]基于此,现需要一种更有效的中文地址标准化方式,可以保证中文地址标准化的准确性,并可以提高中文地址标准化的速度。

技术实现思路

[0005]本说明书一个或多个实施例提供了一种中文地址标准化方法、装置、设备及介质,用于解决如下技术问题:
[0006]现需要一种更有效的中文地址标准化方式,可以保证中文地址标准化的准确性,并可以提高中文地址标准化的速度。
[0007]本说明书一个或多个实施例采用下述技术方案:
[0008]本说明书一个或多个实施例提供一种中文地址标准化方法,包括:
[0009]获取预先构建的地址训练集,其中,所述地址训练集包括多个已标注的中文地址数据;
[0010]根据所述地址训练集训练预先建立的初始模型,得到中文地址标注模型;
[0011]将待处理的中文地址输入所述中文地址标注模型,得到所述待处理的中文地址对应的行政区划标注结果;
[0012]通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,所
述标准化模型包括预先录入的标准行政区划地址。
[0013]本说明书一个或多个实施例提供一种中文地址标准化装置,所述装置包括:
[0014]获取单元,获取预先构建的地址训练集,其中,所述地址训练集包括多个已标注的中文地址数据;
[0015]模型训练单元,根据所述地址训练集训练预先建立的初始模型,得到中文地址标注模型;
[0016]标注处理单元,将待处理的中文地址输入所述中文地址标注模型,得到所述待处理的中文地址对应的行政区划标注结果;
[0017]标准化单元,通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,所述标准化模型包括预先录入的标准行政区划地址。
[0018]本说明书一个或多个实施例提供一种中文地址标准化设备,包括:
[0019]至少一个处理器;以及,
[0020]与所述至少一个处理器通信连接的存储器;其中,
[0021]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0022]获取预先构建的地址训练集,其中,所述地址训练集包括多个已标注的中文地址数据;
[0023]根据所述地址训练集训练预先建立的初始模型,得到中文地址标注模型;
[0024]将待处理的中文地址输入所述中文地址标注模型,得到所述待处理的中文地址对应的行政区划标注结果;
[0025]通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,所述标准化模型包括预先录入的标准行政区划地址。
[0026]本说明书一个或多个实施例提供一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0027]获取预先构建的地址训练集,其中,所述地址训练集包括多个已标注的中文地址数据;
[0028]根据所述地址训练集训练预先建立的初始模型,得到中文地址标注模型;
[0029]将待处理的中文地址输入所述中文地址标注模型,得到所述待处理的中文地址对应的行政区划标注结果;
[0030]通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,所述标准化模型包括预先录入的标准行政区划地址。
[0031]本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:本说明书实施例将中文地址标准化这一问题转化为自然语言处理中的标注问题,进而设计合适的神经网络结构对该问题进行建模,利用数据对模型进行训练。该方法解决了当前进行中文地址标准化时,使用人工划分的方法或根据经验半自动化划分的方法效率低,准确性差的劣势,可以高效的对大量中文地址及进行标准化。在神经网络算法的基础上,再结合行政区划数据库在一定程度上对地址信息进行不全,进一步增强标准化程度。
附图说明
[0032]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0033]图1为本说明书一个或多个实施例提供的一种中文地址标准化方法的流程示意图;
[0034]图2为本说明书一个或多个实施例提供的网络结构的结构示意图;
[0035]图3为本说明书一个或多个实施例提供的模型训练和应用整体流程示意图;
[0036]图4为本说明书一个或多个实施例提供的标准地址结构及示例的示意图;
[0037]图5为本说明书一个或多个实施例提供的标准化中文地址的示意图;
[0038]图6为本说明书一个或多个实施例提供的一种中文地址标准化装置的结构示意图
[0039]图7为本说明书一个或多个实施例提供的一种中文地址标准化设备的结构示意图。
具体实施方式
[0040]本说明书实施例提供一种中文地址标准化方法、装置、设备及介质。
[0041]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文地址标准化方法,其特征在于,所述方法包括:获取预先构建的地址训练集,其中,所述地址训练集包括多个已标注的中文地址数据;根据所述地址训练集训练预先建立的初始模型,得到中文地址标注模型;将待处理的中文地址输入所述中文地址标注模型,得到所述待处理的中文地址对应的行政区划标注结果;通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,所述标准化模型包括预先录入的标准行政区划地址。2.根据权利要求1所述的方法,其特征在于,所述获取预先构建的地址训练集,具体包括:获取多个中文地址数据;根据标准行政区划设定标注的字段结构;根据字段结构对所述多个中文地址数据分别进行行政区划标注,得到地址训练集。3.根据权利要求2所述的方法,其特征在于,所述根据字段结构对所述多个中文地址结构分别进行行政区划标注,具体包括:根据所述字段结构,分别确定所述多个中文地址数据中的行政区划信息;对所述行政区划信息进行行政区划标注。4.根据权利要求2所述的方法,其特征在于,所述字段结构包括省、市、区、街道、社区、道路、道路号、小区名称、楼号、单元号与户号。5.根据权利要求2所述的方法,其特征在于,所述通过标准化模型对所述行政区划标注结果进行处理之前,所述方法还包括:判断所述待处理的中文地址的字段结构是否部分字段缺失;若是,将所述待处理的中文地址设定为待标准化的中文地址,并通过标准化模型对所述行政区划标注结果进行处理。6.根据权利要求5所述的方法,其特征在于,所述待标准化的中文地址为所述字段结构中部分字段缺失,或者与所述字段结构中部分字段不一致。7.根据权利要求1所述的方法,其特征在于,所述通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,具体包括:通过所述标准化模型中的所述标准行政区划地址匹配所述行政区划标注结果;若在所述标准化模型中匹配...

【专利技术属性】
技术研发人员:孙永超申传旺罗森李照川赵海兴
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1