神经网络训练方法和装置及命名实体识别方法和装置制造方法及图纸

技术编号：24251586 阅读：22 留言：0更新日期：2020-05-22 23:35

一种神经网络训练方法和装置及命名实体识别方法和装置。一种用于命名实体识别的神经网络的训练方法，其中，神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层，所述训练方法包括：获取训练文本及其标注信息，其中，标注信息包括命名实体标注；将训练文本输入至文本转换层，得到文本转换层输出的字相关信息；将字相关信息输入至空洞卷积层，得到空洞卷积层的输出；将空洞卷积层的输出输入至局部注意力机制层，得到局部注意力机制层的输出；将局部注意力机制层的输出输入至分类层，得到分类层输出的命名实体信息；基于命名实体信息和相应的命名实体标注，计算神经网络的损失，并根据神经网络的损失对神经网络进行训练。

Neural network training method and device and named entity recognition method and device

全部详细技术资料下载

【技术实现步骤摘要】
神经网络训练方法和装置及命名实体识别方法和装置
本专利技术涉及命名实体识别，尤其涉及用于命名实体识别的神经网络的训练方法和装置以及基于神经网络的命名实体识别方法和装置。
技术介绍
命名实体识别(NamedEntityRecognition,NER)是一种把文本中出现的命名实体识别出来并加以归类的技术。例如，命名实体可包括三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。命名实体识别是自然语言处理中的一项基础性工作，同时也是很多应用(例如，信息检索、信息抽取以及机器翻译等)中的关键技术。因此，研究命名实体的自动识别具有重要的理论意义和实践价值。随着对命名实体识别技术的需求不断提高，对命名实体识别技术的要求也越来越高。然而，在现有的命名实体识别技术中，由于在中文命名实体中可能存在包含较多汉字单元的现象，所以往往处理用于命名实体识别的特征的范围较小，计算效率低下。同时，在现有的命名实体识别技术中，用于命名实体识别的特征信息通常会存在不够突出的问题，这导致命名实体识别的准确率较低。
技术实现思路
本专利技术的目的在于提供一种用于命名实体识别的神经网络的训练方法和装置以及基于神经网络的命名实体识别方法和装置。本专利技术的一方面提供一种用于命名实体识别的神经网络的训练方法，其中，所述神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层，所述训练方法包括：获取训练文本，以及获取训练文本的标注信息，其中，训练文本的标注信息包括命名实体...

【技术保护点】
1.一种用于命名实体识别的神经网络的训练方法，其中，所述神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层，所述训练方法包括：/n获取训练文本，以及获取训练文本的标注信息，其中，训练文本的标注信息包括命名实体标注；/n将训练文本输入至文本转换层，得到文本转换层输出的字相关信息；/n将所述字相关信息输入至空洞卷积层，得到空洞卷积层的输出；/n将空洞卷积层的输出输入至局部注意力机制层，得到局部注意力机制层的输出；/n将局部注意力机制层的输出输入至分类层，得到分类层输出的命名实体信息；/n基于分类层输出的命名实体信息和相应的命名实体标注，计算所述神经网络的损失，并根据神经网络的损失对所述神经网络进行训练。/n

【技术特征摘要】
1.一种用于命名实体识别的神经网络的训练方法，其中，所述神经网络包括预训练的文本转换层、空洞卷积层、局部注意力机制层和分类层，所述训练方法包括：
获取训练文本，以及获取训练文本的标注信息，其中，训练文本的标注信息包括命名实体标注；
将训练文本输入至文本转换层，得到文本转换层输出的字相关信息；
将所述字相关信息输入至空洞卷积层，得到空洞卷积层的输出；
将空洞卷积层的输出输入至局部注意力机制层，得到局部注意力机制层的输出；
将局部注意力机制层的输出输入至分类层，得到分类层输出的命名实体信息；
基于分类层输出的命名实体信息和相应的命名实体标注，计算所述神经网络的损失，并根据神经网络的损失对所述神经网络进行训练。

2.如权利要求1所述的训练方法，其中，空洞卷积层包括顺序连接的扩张率依次增大且互质的多个空洞卷积层，
所述将所述字相关信息输入至空洞卷积层，得到空洞卷积层的输出的步骤包括：
将所述字相关信息输入至所述多个空洞卷积层中的第一个空洞卷积层，分别得到所述多个空洞卷积层的输出；
将所述多个空洞卷积层的输出拼接在一起作为空洞卷积层的输出。

3.如权利要求2所述的训练方法，其中，所述多个空洞卷积层的数量为3，且所述多个空洞卷积层的扩张率依次为1、2和5，或者所述多个空洞卷积层的数量为4，且所述多个空洞卷积层的扩张率依次为1、2、5和9。

4.如权利要求1所述的训练方法，其中，所述空洞卷积层包括多组空洞卷积层，每组空洞卷积层包括顺序连接的扩张率依次增大且互质的多个空洞卷积层，
所述将所述字相关信息输入至空洞卷积层，得到空洞卷积层的输出的步骤包括：
将所述字相关信息输入至所述多组空洞卷积层中的第一组空洞卷积层，得到第一组空洞卷积层中的输出；
对于所述多组空洞卷积层中除最后一组空洞卷积层之外的剩余多组空洞卷积层中的每一组空洞卷积层，将该组空洞卷积层的输入和该组空洞卷积层的输出进行相加，并将相加结果作为该组空洞卷积层的下一组空洞卷积层的输入；
将所述最后一组空洞卷积层中的多个空洞卷积层的输出拼接在一起作为所述空洞卷积层的输出。

5.如权利要求4所述的训练方法，其中，每一组空洞卷积层所包括的多个空洞卷积层的数量为3，且每一组空洞卷积层所包括的多个空洞卷积层的扩张率依次...

【专利技术属性】
技术研发人员：赵汉光，王珵，戴文渊，陈雨强，
申请(专利权)人：第四范式北京技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人