The present invention provides a sentence trunk analysis method and system based on Multi-task depth neural network for word segmentation and named entity recognition. The method uses three different bidirectional LSTM neural networks with conditional random fields to segment Chinese word corpus, Chinese Named Entity Recognition Corpus and Chinese sentence trunk analysis corpus, respectively, for word segmentation, named entity recognition and sentence trunk analysis corpus. The output vectors of the three networks are analyzed and transmitted to the multi-task parameter sharing layer network respectively. The multi-task parameter sharing layer network uses the fully connected neural network to stitch and train the feature vectors transmitted by the three tasks, and the training results are conveyed back to the input layer of the two-way LSTM neural network. After several iterations of training, the output is provided with a sentence backbone. Result sequence annotated information. The method of combining the artificial neural network based on deep learning with the multi-task learning of semantic elements in sentences can improve the accuracy, response speed and fault tolerance of the system.
【技术实现步骤摘要】
一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
本专利技术涉及一种自然语言处理
,尤其是一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统。
技术介绍
对文本数据中的句子主干进行自动化分析是自然语言处理、句法分析等人工智能技术的重要应用领域,其主要目的是应用自然语言处理技术和机器学习技术,让计算机自动对数字化文本中的句子进行分析,输出句子的主语、谓语、宾语等关键信息的结构化表示。本专利技术的基本思想是:首先,使用三个带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,上述三个任务分别在三个独立的神经网络上进行训练,三个任务的神经网络分别输出特征向量传递给多任务参数共享层网络;(2)多任务参数共享层网络使用全连接的神经网络对上述三个任务传递来的特征向量进行拼接和训练,然后将训练的结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;(3)经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。其中,中文分词是使用计算机和自然语言处理技术自动将中文句子切分成词的序列。命名实体,英文为NamedEntity,在自然语言处理领域是指具有命名性的指称形式的实体,而实体是文本中承载信息的重要语言单元。命名实体识别(NamedEntityRecognition,NER)作为文本信息抽取任务中的一种,主要研究如何从一段自然语言文本中找出相关实体,并标注出其位置以及类型。常见的命名实体划分类型包括:人名、地名、机 ...
【技术保护点】
1.一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于包括以下步骤:S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。
【技术特征摘要】
1.一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于包括以下步骤:S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。2.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词,具体如下:输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;测试集中的句子则是未经过分词的中文句子;带有条件随机场的双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能。3.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,带有条件随机场的双向LSTM神经网络进行命名实体识别,具体如下:输入的中文命名实体识别语料分为训练集和测试集两类;训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词;将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别。4.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,带有条件随机场的双向LSTM神经网络进行中文句子主干分析,具体如下:与前面的中文分词和命名实体识别相似,输入的中文句子主干分析语料分为训练集和测试集两类;将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到带有条件随机场的双向LSTM网络中,进行训练;其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;将上一层网络识别出来的命名实体作为一个长词看待;带有条件随机场的双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能。5.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,将三个网络的输出向量分别传递给多任务参数共享层网络,具体如下:负责上述三个任务(中文分词任务...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。