【技术实现步骤摘要】
基于深度学习和条件随机场的地址单元解析方法及装置
[0001]本专利技术涉及地址单元解析
,具体地说是基于深度学习和条件随机场的地址单元解析方法及装置。
技术介绍
[0002]地址信息广泛存在于各类文本中,例如:快递单、保险单、工单、发票、合同等,对这些文本进行地址解析具有重要的意义。每条地址信息由省、市、县、乡、村、建筑物、号码等不同级别的地址单元构成,进行地址解析时需要抽取上述各类地址单元的名称和级别。例如,对句子“我们单位位于山东省济南市历下区华阳路69号留学人员创业园”进行地址解析,则结果是“Province=山东省”、“City=济南市”、“County=历下区”、“Road=华阳路”、“RoadNo=69号”、“Poi=留学人员创业园”。
[0003]常用地址解析方法如下:
[0004]A、关键词匹配法:按照标识不同级别地址单元的关键词进行匹配,例如:地级行政区域关键词[市、自治州]、道路关键词[公路、隧道、街、弄、巷],因为地址复杂多样,所以该方法的解析成本比较高;此外,地址存在简称和别名 ...
【技术保护点】
【技术特征摘要】
1.基于深度学习和条件随机场的地址单元解析方法,其特征在于包括如下步骤:S1、对训练集进行数据标注,得到标注后训练集;S2、对标注后训练集进行预处理,得到预处理后训练集,所述预处理后训练集能够被Bert模型接收;S3、构建端到端的地址单元标注模型,并将所述预处理后训练集作为所述地址单元标注模型的训练语料,训练所述地址单元标注模型,得到训练后地址单元标注模型;所述地址单元标注模型包括静态字嵌入层、动态字嵌入层、特征提取层以及标签优化层,所述静态字嵌入层由预训练模型Bert构成,用于将文本转换为静态字向量序列;所述动态字嵌入层由BiGRU网络构成,用于将静态字向量序列转换为能够体现上下文关系的动态字向量序列;所述特征提取层由全连接网络组成,用于将序列单字的动态字向量转换为预定维度的特征向量;所述标签优化层由条件随机场CRF模型构成,用于采用维特比算法求出分值最大的地址单元标注序列;S4、对测试集进行预处理,得到预处理后测试集,所述预处理后测试集能够被Bert模型接收;S5、以所述预处理后测试集作为所述训练后地址单元标注模型的输入集,预测所述预处理后测试集中每个单字的地址单元标签,得到地址单元标注序列;S6、从所述地址单元标注序列中抽取出地址单元名称和标签。2.根据权利要求1所述的基于深度学习和条件随机场的地址单元解析方法,其特征在于每个地址单元均由一个或多个单字组成,所述地址单元通过如下符号表示:Province:省级行政区域,包括省、自治区、直辖市;City:地级行政区域,包括地级市、地区、自治州等;County:县级行政区域,包括市辖区、县级市、县、旗等;Town:乡级行政区域,包括镇、街道、乡等;Community:村级行政区域,包括社区、行政村、自然村等;Group:村级行政区域的下级区域,包括生产队、居委会等;Road:有正式名称的道路,包括高速公路、隧道、街、弄、巷等;RoadNo:道路上的建筑物号码;Poi:兴趣点(Point of interesting),指的是任何非地理意义的有意义区域;Subpoi:子兴趣点,指的是兴趣点内部的区域;PtNo:指代Poi或Subpoi的区域号码;通过BIEOS方法对每个单字进行序列标注时,B表示地址单元开始,I表示地址单元中间,E表示地址单元结束,S表示由单字形成的地址单元,O表示不是地址单元。3.根据权利要求1所述的基于深度学习和条件随机场的地址单元解析方法,其特征在于将所述标注后训练集和测试集分别作为目标集,通过如下步骤对目标集进行预处理:Step1、将目标集文本转换为长度等于最大序列长度
‑
2的定长序列;Step2、在定长序列句首添加[CLS]标签,类型标注为[CLS];Step3、在定长序列句尾添加[SEP]标签,类型标注为[SEP];Step3、返回添加标签后的定长序列;Step1将目标集文本转换为长度等于最大序列长度
‑
2的定长序列,包括如下操作:
Step1.1、如果目标集文本长度小于最大序列长度
‑
2,在句尾用PAD补齐,类型标注为O,得到长度等于最大序列长度
‑
2的定长序列;Step1.2、如果目标集文本长度大于最大序列长度
‑
2,进行句尾截断,得到长度等于最大序列长度
‑
2的定长序列;Step1.3、返回所生成的定长序列;所述特征提取层用于将序列单字的动态字向量转换为T维特征向量,其中T=K+2,K为地址单元标签的类型总数,+2表示预处理过程中添加的标签[CLS]和[SEP]。4.根据权利要求1
‑
3任一项所述的基于深度学习和条件随机场的地址单元解析方法,其特征在于所述静态字嵌入层为基于遮掩语言模型的Bert模型,包括:Embedding层,所述Embedding层包括字嵌入层、段落嵌入层和位置嵌入层,所述字嵌入层用于输出预处理后每个单字的字向量,所述段落嵌入层用于输出预处理后每个单字在句子对中的上下文标识,所述位置嵌入层用于输出预处理后每个单字的位置编码;Transformer层,所述Transformer层由编码器和解码器构成,所述编码器由多个ENCODER网络模型先后连接而成,所述解码器由多个DECODER网络模型先后连接而成,对于每个DECODER网络模型,其输入数据包括下级DECODER网络模型的输出以及最后一个ENCODER网络模型的输出;在组成构成上,所述DECODER网络模型和ENCODER网络模型组成的网络包括多头注意力模块、掩码多头注意力模块、层归一化模块以及前馈网络模块,且所述DECODER网络模型比ENCODER网络模型增加了一个层归一化模块和一个掩码多头注意力模块,所述多头注意力模块用于基于Self
‑
Attention模型、在多个投影空间提取不同的交互信息,并将不同的交互信息合并;所述掩码多头注意力模块用于通过掩码掩盖DECODER网络模型没有预测到的单字,对于DECODER网络模型预测到的单字,所述掩码多头注意力模块用于基于Self
‑
Attention模型、在多个投影空间提取不同的交互信息,并将不同的交互信息合并;所述层归一化模块用于将前驱模块的输入和输出相加后,进行归一化操作,所述前驱模块为所述前馈网络模块、多头注意力模块以及掩码多头注意力模块;所述前馈网络模块采用双层全连接网络,其第一层全连接网络在线性变换后使用RELU激活函数,第二层全连接网络是不包含激活函数的线性变换;输出层,所述输出层由全连接网络和Softmax构成,用于计算被屏蔽单字的概率和句子对相邻句子间的关联概率。5.根据权利要求4所述的基于深度学习和条件随机场的地址单元解析方法,其特征在于所述动态字嵌入层用于通过如下步骤将静态字向量序列转换为可以体现上下文关系的动态字向量序列:Step1、按照正向顺序将字向量序列送入前向GRU层,将输出的隐藏状态作为每个单字的前向GRU编码;同时,按照反向顺序将字向量序列送入后向GRU层,将输出的隐藏状态作为每个单字的后向GRU编码;Step2、将每个单字的前向GRU编码和后向GRU编码拼接在一起,获取每个单字的双向GRU编码;Step3、将每个单字的双向GRU编码按序排列,得到输入文本的动态字向量序列。6.根据权利要求5所述的基于深度学习和条件随机场的地址单元解析方法,其特征在于所述标签优化层中,维特比算法是基于栅栏图的动态规划方法,将标注序列优化问题转
换为栅栏图最优路径问题,所述栅栏图最优路径问题执行步骤如下:Step 1:连接从S到W1对应栅栏图的所有结点,表示该栅栏图的所有结点都有可能处于最优路径中。Step 2:对于W2对应栅栏图的每个结点,从W1对应栅栏图中选择连接后分值最高的结点,并建立连接关系。Step 3:对于后继的W
p
,p∈[3,L],按照Step 2的方法从W
p
‑1对应栅栏图中选择并连接结点。Step 4:从E到S进行倒推,确定从S到E的T条候选路径。Step 5:计算T条候选路径的分值。Step 6:根据分值最大路径的结点序列,确定标注序列;其中,按照单字在序列W中的顺序从左向右排列单字W1、W2、
…
、W
p
…
、W
L
,每个W
p
对应一个栅栏,栅栏中自上而下排列的结点G1、G2、
…
、G
T
表示T种地址单元标签,结点S和E分别是标注序列的开始和结束标识;使用H=(H1,H2,
…
,H
p
,
…
,H
L<...
【专利技术属性】
技术研发人员:王功明,孙思清,魏金雷,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。