基于预训练语言模型的镇街村居地址标准化方法技术

技术编号：35943046 阅读：16 留言：0更新日期：2022-12-14 10:32

本发明专利技术公开了一种基于预训练语言模型的镇街村居地址标准化方法，所述方法包括：步骤1、对原始地址数据进行清洗；步骤2、将步骤1中清洗好的地址送入训练好的Roberta

全部详细技术资料下载

【技术实现步骤摘要】
基于预训练语言模型的镇街村居地址标准化方法

[0001]本专利技术涉及自然语言处理领域，具体地，涉及一种基于预训练语言模型的镇街村居地址标准化方法。

技术介绍

[0002]基层街道、乡镇、社区、行政村的人员的地址汇总与管理一直是基层治理工作的痛点和难点。县区及镇街各条块部门有大量需村居摸排、采集录入的任务。镇街村居需要将这些下发的任务按镇街、村居、网格等维度进行分派下发。如无法对人员进行归属镇街村居地址分配，则相关工作人员的具体排查、走访、调研等工作将无法正常开展。
[0003]针对这个问题采用标准地址库来解决，但是，现有的标准地址库在地址入库方面存在如下几个问题：
[0004]1、不同网格、社区下的录入地址的标准不一致，会造成地址入库难。如有的单元和楼房号是用
‑
进行区分，而有的则以#进行区分。
[0005]2、地址本身存在问题，相关人员没审查，如某某村某某组xx号，缺少村元素。
[0006]3、人工进行抽取地址费时费力，基于规则的地址抽取方法设计的规则十分冗余且抽取方法不具有普适性。
[0007]4、基于传统的机器学习进行命名实体任务准确率不够，而现有进行命名实体任务的预训练模型的推理和训练速度都较慢。

技术实现思路

[0008]本专利技术的目的是提供一种基于预训练语言模型的镇街村居地址标准化方法，该方法相较于人工进行抽取地址更加省时省力，相较于基于规则的地址抽取方法更有普适性，相较于基于传统的机器学习进行命名实体任务准确率更高，相较于现有...

【技术保护点】

【技术特征摘要】
1.一种基于预训练语言模型的镇街村居地址标准化方法，其特征在于，所述方法包括：步骤1、对原始地址数据进行清洗；步骤2、将步骤1中清洗好的地址送入训练好的Roberta
‑
crf模型进行地址实体的抽取；步骤3、对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址。2.根据权利要求1所述的方法，其特征在于，步骤1中的数据清洗内容包括：步骤1.1、将字符全角转化为半角；步骤1.2、将地址内的空格去除；步骤1.3、替换特殊字符；步骤1.4、将地址中误用中文输入的数字转化为阿拉伯数字。3.根据权利要求1所述的方法，其特征在于，步骤2中的Roberta模型在训练阶段attention矩阵只保留了实体长度的部分。4.根据权利要求1所述的方法，其特征在于，在步骤2中，使用预训练模型对地址分别按照地区、建筑物、单元与楼牌号进行抽取。5.根据权利要求1所述的方法，其特征在于，在步骤2中根据文本数据集对self
‑
a...

【专利技术属性】
技术研发人员：王智强，承孝敏，张名扬，丁梦婷，孔慧宇，
申请(专利权)人：长三角信息智能创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人