基于预训练语言模型的镇街村居地址标准化方法技术

技术编号:35943046 阅读:16 留言:0更新日期:2022-12-14 10:32
本发明专利技术公开了一种基于预训练语言模型的镇街村居地址标准化方法,所述方法包括:步骤1、对原始地址数据进行清洗;步骤2、将步骤1中清洗好的地址送入训练好的Roberta

【技术实现步骤摘要】
基于预训练语言模型的镇街村居地址标准化方法


[0001]本专利技术涉及自然语言处理领域,具体地,涉及一种基于预训练语言模型的镇街村居地址标准化方法。

技术介绍

[0002]基层街道、乡镇、社区、行政村的人员的地址汇总与管理一直是基层治理工作的痛点和难点。县区及镇街各条块部门有大量需村居摸排、采集录入的任务。镇街村居需要将这些下发的任务按镇街、村居、网格等维度进行分派下发。如无法对人员进行归属镇街村居地址分配,则相关工作人员的具体排查、走访、调研等工作将无法正常开展。
[0003]针对这个问题采用标准地址库来解决,但是,现有的标准地址库在地址入库方面存在如下几个问题:
[0004]1、不同网格、社区下的录入地址的标准不一致,会造成地址入库难。如有的单元和楼房号是用

进行区分,而有的则以#进行区分。
[0005]2、地址本身存在问题,相关人员没审查,如某某村某某组xx号,缺少村元素。
[0006]3、人工进行抽取地址费时费力,基于规则的地址抽取方法设计的规则十分冗余且抽取方法不具有普适性。
[0007]4、基于传统的机器学习进行命名实体任务准确率不够,而现有进行命名实体任务的预训练模型的推理和训练速度都较慢。

技术实现思路

[0008]本专利技术的目的是提供一种基于预训练语言模型的镇街村居地址标准化方法,该方法相较于人工进行抽取地址更加省时省力,相较于基于规则的地址抽取方法更有普适性,相较于基于传统的机器学习进行命名实体任务准确率更高,相较于现有进行命名实体任务的预训练模型的推理速度更快。
[0009]为了实现上述目的,本专利技术提供了一种基于预训练语言模型的镇街村居地址标准化方法,该方法包括:
[0010]步骤1、对原始地址数据进行清洗;
[0011]步骤2、将步骤1中清洗好的地址送入训练好的Roberta

crf模型进行地址实体的抽取;
[0012]步骤3、对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址。
[0013]优选地,步骤1中的数据清洗内容包括:
[0014]步骤1.1、将字符全角转化为半角;
[0015]步骤1.2、将地址内的空格去除;
[0016]步骤1.3、替换特殊字符;
[0017]步骤1.4、将地址中误用中文输入的数字转化为阿拉伯数字。
[0018]优选地,步骤2中的Roberta模型在训练阶段attention矩阵只保留了实体长度的部分。
[0019]优选地,在步骤2中,使用预训练模型对地址分别按照地区、建筑物、单元与楼牌号进行抽取。
[0020]优选地,在步骤2中根据文本数据集对self

attention机制的共识改进,得到:
[0021][0022][0023]其中,C为每个批次的平均长度,length(batch(X))代表这个批次的总长度,batch_size为批次大小,N为每个地址的长度;Q为输入地址经过Embedding向量与随机初始化权重矩阵Wq相乘后的向量,K
T
为输入地址经过Embedding向量与随机初始化权重矩阵Wq相乘后的转置向量,q
ij
k
ij
是Q,K矩阵中对于i行j列的向量元素;
[0024]attention每次计算仅计算每个批次最大的长度,将attention矩阵的计算时间复杂度缩短为O(cn)。
[0025]优选地,步骤2中还将Roberta进行蒸馏使得Roberta缩小。
[0026]优选地,在步骤3中,将抽取后的地址按照小区、建筑物、单元与楼房号通过Esim进行地址匹配,按照阈值推荐库中最匹配的地址。
[0027]根据上述技术方案,本专利技术依次通过原始输入地址的预处理,预训练模型对地址分别按照地区、建筑物、单元与楼牌号进行抽取,以及对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址,实现了对镇街村居录入地址的地区、建筑物、单元与楼牌号等字段的抽取以及匹配地址与本地地址库从语义角度最相关的标准地址等功能。整个过程省时省力,方法普适性高,完成的速度更快,得到的结果准确率更高。
[0028]本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0029]附图是用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术,但并不构成对本专利技术的限制。在附图中:
[0030]图1是本专利技术提供的基于预训练语言模型的镇街村居地址标准化方法的流程示意图。
具体实施方式
[0031]以下结合附图对本专利技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术,并不用于限制本专利技术。
[0032]本专利技术提供一种基于预训练语言模型的镇街村居地址标准化方法,该方法包括:
[0033]步骤1、对原始地址数据进行清洗;
[0034]步骤2、将步骤1中清洗好的地址送入训练好的Roberta

crf模型进行地址实体的
抽取;
[0035]步骤3、对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址。
[0036]其中,步骤1中的数据清洗内容包括:
[0037]步骤1.1、将字符全角转化为半角;
[0038]步骤1.2、将地址内的空格去除;
[0039]步骤1.3、替换特殊字符;
[0040]步骤1.4、将地址中误用中文输入的数字转化为阿拉伯数字。
[0041]步骤2中的Roberta模型在训练阶段attention矩阵只保留了实体长度的部分。
[0042]在步骤2中,使用预训练模型对地址分别按照地区、建筑物、单元与楼牌号进行抽取。
[0043]传统的self

attention机制的共识如下所示:
[0044]Q=W
q
X
[0045]V=W
v
X
[0046]K=W
k
X
[0047][0048][0049]上述K、Q、V都输入X乘以相应的权重矩阵得出来的矩阵,QK相乘之后除以得到attention,self

attention矩阵计算的时间复杂度为O(n2)。而在本专利技术的步骤2中,根据文本数据集对self

attention机制的共识改进,得到:
[0050][0051][0052]其中,C为每个批次的平均长度,length(batch(X))代表这个批次的总长度,batch_size为批次大小,N为每个地址的长度;Q为输入地址经过Embedding向量与随机初始化权重矩阵Wq相乘后的向量,K
T
为输入地址经过Embedding向量与随机初始化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练语言模型的镇街村居地址标准化方法,其特征在于,所述方法包括:步骤1、对原始地址数据进行清洗;步骤2、将步骤1中清洗好的地址送入训练好的Roberta

crf模型进行地址实体的抽取;步骤3、对于错误的地址使用基于交互式计算模型进行匹配出地址库内最语义上接近的地址。2.根据权利要求1所述的方法,其特征在于,步骤1中的数据清洗内容包括:步骤1.1、将字符全角转化为半角;步骤1.2、将地址内的空格去除;步骤1.3、替换特殊字符;步骤1.4、将地址中误用中文输入的数字转化为阿拉伯数字。3.根据权利要求1所述的方法,其特征在于,步骤2中的Roberta模型在训练阶段attention矩阵只保留了实体长度的部分。4.根据权利要求1所述的方法,其特征在于,在步骤2中,使用预训练模型对地址分别按照地区、建筑物、单元与楼牌号进行抽取。5.根据权利要求1所述的方法,其特征在于,在步骤2中根据文本数据集对self

a...

【专利技术属性】
技术研发人员:王智强承孝敏张名扬丁梦婷孔慧宇
申请(专利权)人:长三角信息智能创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1