神经网络训练方法和装置及命名实体识别方法和装置制造方法及图纸

技术编号:24251586 阅读:22 留言:0更新日期:2020-05-22 23:35
一种神经网络训练方法和装置及命名实体识别方法和装置。一种用于命名实体识别的神经网络的训练方法,其中,神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层,所述训练方法包括:获取训练文本及其标注信息,其中,标注信息包括命名实体标注;将训练文本输入至文本转换层,得到文本转换层输出的字相关信息;将字相关信息输入至空洞卷积层,得到空洞卷积层的输出;将空洞卷积层的输出输入至局部注意力机制层,得到局部注意力机制层的输出;将局部注意力机制层的输出输入至分类层,得到分类层输出的命名实体信息;基于命名实体信息和相应的命名实体标注,计算神经网络的损失,并根据神经网络的损失对神经网络进行训练。

Neural network training method and device and named entity recognition method and device

【技术实现步骤摘要】
神经网络训练方法和装置及命名实体识别方法和装置
本专利技术涉及命名实体识别,尤其涉及用于命名实体识别的神经网络的训练方法和装置以及基于神经网络的命名实体识别方法和装置。
技术介绍
命名实体识别(NamedEntityRecognition,NER)是一种把文本中出现的命名实体识别出来并加以归类的技术。例如,命名实体可包括三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。命名实体识别是自然语言处理中的一项基础性工作,同时也是很多应用(例如,信息检索、信息抽取以及机器翻译等)中的关键技术。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。随着对命名实体识别技术的需求不断提高,对命名实体识别技术的要求也越来越高。然而,在现有的命名实体识别技术中,由于在中文命名实体中可能存在包含较多汉字单元的现象,所以往往处理用于命名实体识别的特征的范围较小,计算效率低下。同时,在现有的命名实体识别技术中,用于命名实体识别的特征信息通常会存在不够突出的问题,这导致命名实体识别的准确率较低。
技术实现思路
本专利技术的目的在于提供一种用于命名实体识别的神经网络的训练方法和装置以及基于神经网络的命名实体识别方法和装置。本专利技术的一方面提供一种用于命名实体识别的神经网络的训练方法,其中,所述神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层,所述训练方法包括:获取训练文本,以及获取训练文本的标注信息,其中,训练文本的标注信息包括命名实体标注;将训练文本输入至文本转换层,得到文本转换层输出的字相关信息;将所述字相关信息输入至空洞卷积层,得到空洞卷积层的输出;将空洞卷积层的输出输入至局部注意力机制层,得到局部注意力机制层的输出;将局部注意力机制层的输出输入至分类层,得到分类层输出的命名实体信息;基于分类层输出的命名实体信息和相应的命名实体标注,计算所述神经网络的损失,并根据神经网络的损失对所述神经网络进行训练。可选地,空洞卷积层包括顺序连接的扩张率依次增大且互质的多个空洞卷积层,所述将所述字相关信息输入至空洞卷积层,得到空洞卷积层的输出的步骤包括:将所述字相关信息输入至所述多个空洞卷积层中的第一个空洞卷积层,分别得到所述多个空洞卷积层的输出;将所述多个空洞卷积层的输出拼接在一起作为空洞卷积层的输出。可选地,所述多个空洞卷积层的数量为3,且所述多个空洞卷积层的扩张率依次为1、2和5,或者所述多个空洞卷积层的数量为4,且所述多个空洞卷积层的扩张率依次为1、2、5和9。可选地,所述空洞卷积层包括多组空洞卷积层,每组空洞卷积层包括顺序连接的扩张率依次增大且互质的多个空洞卷积层,所述将所述字相关信息输入至空洞卷积层,得到空洞卷积层的输出的步骤包括:将所述字相关信息输入至所述多组空洞卷积层中的第一组空洞卷积层,得到第一组空洞卷积层中的输出;对于所述多组空洞卷积层中除最后一组空洞卷积层之外的剩余多组空洞卷积层中的每一组空洞卷积层,将该组空洞卷积层的输入和该组空洞卷积层的输出进行相加,并将相加结果作为该组空洞卷积层的下一组空洞卷积层的输入;将所述最后一组空洞卷积层中的多个空洞卷积层的输出拼接在一起作为所述空洞卷积层的输出。可选地,每一组空洞卷积层所包括的多个空洞卷积层的数量为3,且每一组空洞卷积层所包括的多个空洞卷积层的扩张率依次为1、2和5,或者每一组空洞卷积层所包括的多个空洞卷积层的数量为4,且每一组空洞卷积层所包括的多个空洞卷积层的扩张率依次为1、2、5和9。可选地,所述将空洞卷积层的输出输入至局部注意力机制层,得到局部注意力机制层的输出的步骤包括:将空洞卷积层的输出输入至局部注意力机制层,以计算空洞卷积层的输出中的各个位置的特征与其预定范围内的特征之间的相关性;基于所述相关性、所述各个位置的特征以及所述预定范围内的特征得到各个位置的最终输出特征作为局部注意力机制层的输出。可选地,通过以下等式来计算相关性:hi,i′=tanh(Wq·xi+Wx·xi′+bq)ei,i′=σ(Wa·hi,i′+ba)其中,i是当前关注的位置,i′是相对于位置i的关注范围为d的位置,是向下取整函数,xi是位置i的输入特征,xi′是位置i′的输入特征,Wq和Wx分别是用于对当前输人特征xi和关注输人特征xi′进行线性变换的可训练参数,bq是偏项,hi,i′是位置i′相对于位置i对应特征的相对表示,Wa和ba用于将hi,i′进行线性变换的参数,ei,i′是位置i′相对于位置i的相关程度,σ是使用sigmoid函数的激活函数。可选地,通过以下等式来得到所述各个位置的最终输出特征:ai=softmax(ei)其中,ei是所有位置i′相对于位置i的注意力向量,ai是归一化后的所有位置i′相对于位置i的注意力向量,vi是位置i的最终输出特征。可选地,通过以下等式将相对位置信息拼接到输入特征xi′作为新的输入特征x′i′:x′i′=xi′||pi′。可选地,分类层为线性链条件随机场层。可选地,所述文本转换层为嵌入层;所述将训练文本输入至文本转换层,得到文本转换层输出的字相关信息包括:将训练文本输入到经过预训练的嵌入层,得到嵌入层输出的字相关信息;或者,所述文本转换层包括嵌入层和双向语言模型;所述将训练文本输入至文本转换层,得到文本转换层输出的字相关信息包括:将训练文本分别输入到经过预训练的嵌入层,得到嵌入层输出的字相关信息,将嵌入层输出的字相关信息输入到双向语言模型,得到双向语言模型输出的字相关信息,将嵌入层输出的字相关信息和双向语言模型输出的字相关信息拼接在一起作为文本转换层输出的字相关信息。可选地,所述训练方法进一步包括:对训练文本的标注信息进行编码;对分类层输出的命名实体信息进行解码。可选地,所述对训练文本的标注信息进行编码的步骤包括:对训练文本的标注信息进行BIO编码,所述对分类层输出的命名实体信息进行解码的步骤包括:对分类层输出的命名实体信息进行BIO解码,其中,B表示一个命名实体的第一个字,I表示所述一个命名实体的剩余的字,O表示非命名实体的字。本专利技术的一方面提供一种基于神经网络的命名实体识别方法,其中,所述神经网络是经过如上所述的任一训练方法训练的,所述神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层,所述命名实体识别方法包括:获取待识别的预测文本;将预测文本输入至所述神经网络,得到所述神经网络输出的命名实体信息。本专利技术的一方面提供一种用于命名实体识别的神经网络的训练装置,其中,所述神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层,所述训练装置包括:获取单元,被配置为获取训练文本,以及获取训练文本的标注信息,其中,训练文本的标注信息包括命名实体标注;命名实体信息生成单元,被配置为:将训练文本输入至文本转换层,得到文本转换层输出的字相关信息;将所述字相关信息输入至空洞卷积层,得到空洞卷积层的输出;将空洞本文档来自技高网...

【技术保护点】
1.一种用于命名实体识别的神经网络的训练方法,其中,所述神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层,所述训练方法包括:/n获取训练文本,以及获取训练文本的标注信息,其中,训练文本的标注信息包括命名实体标注;/n将训练文本输入至文本转换层,得到文本转换层输出的字相关信息;/n将所述字相关信息输入至空洞卷积层,得到空洞卷积层的输出;/n将空洞卷积层的输出输入至局部注意力机制层,得到局部注意力机制层的输出;/n将局部注意力机制层的输出输入至分类层,得到分类层输出的命名实体信息;/n基于分类层输出的命名实体信息和相应的命名实体标注,计算所述神经网络的损失,并根据神经网络的损失对所述神经网络进行训练。/n

【技术特征摘要】
1.一种用于命名实体识别的神经网络的训练方法,其中,所述神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层,所述训练方法包括:
获取训练文本,以及获取训练文本的标注信息,其中,训练文本的标注信息包括命名实体标注;
将训练文本输入至文本转换层,得到文本转换层输出的字相关信息;
将所述字相关信息输入至空洞卷积层,得到空洞卷积层的输出;
将空洞卷积层的输出输入至局部注意力机制层,得到局部注意力机制层的输出;
将局部注意力机制层的输出输入至分类层,得到分类层输出的命名实体信息;
基于分类层输出的命名实体信息和相应的命名实体标注,计算所述神经网络的损失,并根据神经网络的损失对所述神经网络进行训练。


2.如权利要求1所述的训练方法,其中,空洞卷积层包括顺序连接的扩张率依次增大且互质的多个空洞卷积层,
所述将所述字相关信息输入至空洞卷积层,得到空洞卷积层的输出的步骤包括:
将所述字相关信息输入至所述多个空洞卷积层中的第一个空洞卷积层,分别得到所述多个空洞卷积层的输出;
将所述多个空洞卷积层的输出拼接在一起作为空洞卷积层的输出。


3.如权利要求2所述的训练方法,其中,所述多个空洞卷积层的数量为3,且所述多个空洞卷积层的扩张率依次为1、2和5,或者所述多个空洞卷积层的数量为4,且所述多个空洞卷积层的扩张率依次为1、2、5和9。


4.如权利要求1所述的训练方法,其中,所述空洞卷积层包括多组空洞卷积层,每组空洞卷积层包括顺序连接的扩张率依次增大且互质的多个空洞卷积层,
所述将所述字相关信息输入至空洞卷积层,得到空洞卷积层的输出的步骤包括:
将所述字相关信息输入至所述多组空洞卷积层中的第一组空洞卷积层,得到第一组空洞卷积层中的输出;
对于所述多组空洞卷积层中除最后一组空洞卷积层之外的剩余多组空洞卷积层中的每一组空洞卷积层,将该组空洞卷积层的输入和该组空洞卷积层的输出进行相加,并将相加结果作为该组空洞卷积层的下一组空洞卷积层的输入;
将所述最后一组空洞卷积层中的多个空洞卷积层的输出拼接在一起作为所述空洞卷积层的输出。


5.如权利要求4所述的训练方法,其中,每一组空洞卷积层所包括的多个空洞卷积层的数量为3,且每一组空洞卷积层所包括的多个空洞卷积层的扩张率依次...

【专利技术属性】
技术研发人员:赵汉光王珵戴文渊陈雨强
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1