一种中文地址标准化方法、装置、设备及介质制造方法及图纸

技术编号:34632619 阅读:25 留言:0更新日期:2022-08-24 15:05
本说明书实施例公开了一种中文地址标准化方法、装置、设备及设备,包括:获取预先构建的地址训练集,其中,所述地址训练集包括多个已标注的中文地址数据;根据所述地址训练集训练预先建立的初始模型,得到中文地址标注模型;将待处理的中文地址输入所述中文地址标注模型,得到所述待处理的中文地址对应的行政区划标注结果;通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,所述标准化模型包括预先录入的标准行政区划地址。标准化模型包括预先录入的标准行政区划地址。标准化模型包括预先录入的标准行政区划地址。

【技术实现步骤摘要】
一种中文地址标准化方法、装置、设备及介质


[0001]本说明书涉及计算机
,尤其涉及一种中文地址标准化方法、装置、设备及介质。

技术介绍

[0002]地址信息是基层治理体系中的一个基本的字段,是居民基础信息的重要组成部分,对于快递等行业也起到重要作用。随着基层治理体系和治理能力现代化建设进程的不断深化,对基层基础信息进行标准化成为基层数据治理的基础工作,对于建设和维护基层治理体系具有重要意义。地址信息作为基层治理体系中的一个基本字段,是居民基础信息的一个重要组成部分,对地址信息字段进行标准化处理是基层基础信息标准化的重要工作。与姓名、年龄、身份证号等信息相比,地址信息的长度长,结构化程度弱,都是不规则的字符串形式,因此对地址信息进行标准化难度大,准确率低。
[0003]传统的对地址信息进行标准化的方法包括人工划分和根据经验对部分字段进行半自动化的划分。人工划分顾名思义就是人工将地址字段的内容进行标准化,人为的将地址修改为标准化格式,相对而言人工划分会比较准确,能应对各种不同的地址内容和格式,但是效率很低,要耗费大量人力,且存在一定本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种中文地址标准化方法,其特征在于,所述方法包括:获取预先构建的地址训练集,其中,所述地址训练集包括多个已标注的中文地址数据;根据所述地址训练集训练预先建立的初始模型,得到中文地址标注模型;将待处理的中文地址输入所述中文地址标注模型,得到所述待处理的中文地址对应的行政区划标注结果;通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,所述标准化模型包括预先录入的标准行政区划地址。2.根据权利要求1所述的方法,其特征在于,所述获取预先构建的地址训练集,具体包括:获取多个中文地址数据;根据标准行政区划设定标注的字段结构;根据字段结构对所述多个中文地址数据分别进行行政区划标注,得到地址训练集。3.根据权利要求2所述的方法,其特征在于,所述根据字段结构对所述多个中文地址结构分别进行行政区划标注,具体包括:根据所述字段结构,分别确定所述多个中文地址数据中的行政区划信息;对所述行政区划信息进行行政区划标注。4.根据权利要求2所述的方法,其特征在于,所述字段结构包括省、市、区、街道、社区、道路、道路号、小区名称、楼号、单元号与户号。5.根据权利要求2所述的方法,其特征在于,所述通过标准化模型对所述行政区划标注结果进行处理之前,所述方法还包括:判断所述待处理的中文地址的字段结构是否部分字段缺失;若是,将所述待处理的中文地址设定为待标准化的中文地址,并通过标准化模型对所述行政区划标注结果进行处理。6.根据权利要求5所述的方法,其特征在于,所述待标准化的中文地址为所述字段结构中部分字段缺失,或者与所述字段结构中部分字段不一致。7.根据权利要求1所述的方法,其特征在于,所述通过标准化模型对所述行政区划标注结果进行处理,得到标准化的中文地址,具体包括:通过所述标准化模型中的所述标准行政区划地址匹配所述行政区划标注结果;若在所述标准化模型中匹配...

【专利技术属性】
技术研发人员:孙永超申传旺罗森李照川赵海兴
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1