当前位置: 首页 > 专利查询>五邑大学专利>正文

一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统技术方案

技术编号:20177102 阅读:36 留言:0更新日期:2019-01-23 00:29
本发明专利技术提供一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法、及系统,本发明专利技术分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给多任务参数共享层网络;多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给双向LSTM神经网络的输入层;经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。本发明专利技术采用基于深度学习的人工神经网络和句子中语义元素的多任务学习相结合的方法,能够提高系统准确性、反应速度和容错性。

A Sentence Backbone Analysis Method and System Based on Multi-task Depth Neural Network for Word Segmentation and Named Entity Recognition

The present invention provides a sentence trunk analysis method and system based on Multi-task depth neural network for word segmentation and named entity recognition. The method uses three different bidirectional LSTM neural networks with conditional random fields to segment Chinese word corpus, Chinese Named Entity Recognition Corpus and Chinese sentence trunk analysis corpus, respectively, for word segmentation, named entity recognition and sentence trunk analysis corpus. The output vectors of the three networks are analyzed and transmitted to the multi-task parameter sharing layer network respectively. The multi-task parameter sharing layer network uses the fully connected neural network to stitch and train the feature vectors transmitted by the three tasks, and the training results are conveyed back to the input layer of the two-way LSTM neural network. After several iterations of training, the output is provided with a sentence backbone. Result sequence annotated information. The method of combining the artificial neural network based on deep learning with the multi-task learning of semantic elements in sentences can improve the accuracy, response speed and fault tolerance of the system.

【技术实现步骤摘要】
一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统
本专利技术涉及一种自然语言处理
,尤其是一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及系统。
技术介绍
对文本数据中的句子主干进行自动化分析是自然语言处理、句法分析等人工智能技术的重要应用领域,其主要目的是应用自然语言处理技术和机器学习技术,让计算机自动对数字化文本中的句子进行分析,输出句子的主语、谓语、宾语等关键信息的结构化表示。本专利技术的基本思想是:首先,使用三个带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,上述三个任务分别在三个独立的神经网络上进行训练,三个任务的神经网络分别输出特征向量传递给多任务参数共享层网络;(2)多任务参数共享层网络使用全连接的神经网络对上述三个任务传递来的特征向量进行拼接和训练,然后将训练的结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;(3)经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。其中,中文分词是使用计算机和自然语言处理技术自动将中文句子切分成词的序列。命名实体,英文为NamedEntity,在自然语言处理领域是指具有命名性的指称形式的实体,而实体是文本中承载信息的重要语言单元。命名实体识别(NamedEntityRecognition,NER)作为文本信息抽取任务中的一种,主要研究如何从一段自然语言文本中找出相关实体,并标注出其位置以及类型。常见的命名实体划分类型包括:人名、地名、机构名、时间、货币等。句子主干分析是指使用计算机和自然语言处理技术自动对中文句子中的主语、谓语、宾语等关键信息进行标示,即进行结构化表示。随着网络信息技术的不断发展,尤其是大数据、云计算、移动互联网的发展,越来越多的人通过网络分享自己的观点、体验和心情。这种开放、自由的信息共享与流动方式带来了信息的巨大积累。然而,这些积累的信息大多是以自然语言、声音、图像、视频等非结构化的形式保存的,急需一种技术能够自动、高效的从这些信息中提取知识。随着人工智能、机器学习、自然语言处理技术的不断发展和信息系统应用范围的不断深化,对文本数据进行自动化句子主干分析已经成为自然语言处理中的关键性问题之一。它对于解决机器翻译、信息抽取和自动文摘等任务都有重要的意义,它是将人工智能、自然语言处理应用于企业生产,提高企业生产效率和竞争优势的重要技术措施之一。现有的句子主干分析技术多采用单一任务的方式进行分析,未考虑其它相关任务的有利影响,而句子是由词构成的,句子主干多为命名实体,在训练句子主干分析模型的同时,在不增加人工标注语料的情况下,通过对分词语料、命名实体识别语料的进行多任务同时训练和学习,将中文分词和命名实体识别任务中学习到的语言学特征应用到句子主干分析模型的训练中,有利于提高句子主干分析的效果。
技术实现思路
针对现有技术的不足,本专利技术提供一种能够利用中文分词、命名实体识别模型训练中学习到的语言学特征知识的基于多任务学习和深度神经网络的自动句子主干分析方法、系统。本专利技术的技术方案为:一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,包括以下步骤:S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。进一步的,步骤S1)中,使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词,具体如下:输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;测试集中的句子则是未经过分词的中文句子;带有条件随机场的双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能。进一步的,步骤S1)中,带有条件随机场的双向LSTM神经网络进行命名实体识别,具体如下:输入的中文命名实体识别语料分为训练集和测试集两类;训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词;将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别。进一步的,步骤S1)中,带有条件随机场的双向LSTM神经网络进行中文句子主干分析,具体如下:与前面的中文分词和命名实体识别相似,输入的中文句子主干分析语料分为训练集和测试集两类;将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到带有条件随机场的双向LSTM网络中,进行训练;其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;将上一层网络识别出来的命名实体作为一个长词看待;带有条件随机场的双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能。进一步的,步骤S1)中,将三个网络的输出向量分别传递给多任务参数共享层网络,具体如下:负责上述三个任务(中文分词任务、命名实体识别任务和句子主干分析任务)的带有条件随机场的双向LSTM神经网络在训练过程中输出每个任务的特征向量,这些向量具有一定的与所训练任务相关的句法或语义信息;将上述特征向量传递给下一层网络,即多任务参数共享层网络,用于多任务机器学习。进一步的,步骤S1)中,所述的双向LSTM神经网络由输入层、BiLSTM层和CRF层组成,其中,BiLSTM层由一个前向LSTM网络和个后向LSTM网络组成,因此,它可以同时从前后两个方向学习句子序列的信息;CRF层由一个基于概率统计的条件随机场模型构成;双向LSTM神经网络是一种带有长距离短期记忆单位作为隐含单元的循环神经网络。进一步的,步骤S2)中,多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,具体如下:全连接的神经网络是指输入层与隐含层、隐含层与隐含层、隐含层与输出层之间,任意一个网络层中的神经元都和与其相邻的网络层的神经元两两互联组成的神经网络;多任务参数共享层网络的输入是负责中文分词任务、命名实体识别任务和句子主干分析任务的带有条件随机场的双向LSTM神经网络输出的特征向量,每个任务输出一个特征向量,三个特征向量收尾相连拼接成一个长向量,输入给多任务参数共享层网络。进一步的,步骤S2)中,将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层,具体如下本文档来自技高网
...

【技术保护点】
1.一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于包括以下步骤:S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。

【技术特征摘要】
1.一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于包括以下步骤:S1)、分别使用三个不同的带有条件随机场的双向LSTM神经网络对中文分词语料、中文命名实体识别语料和中文句子主干分析语料分别进行分词、命名实体识别和句子主干分析,并将三个网络的输出向量分别传递给下一层神经网络,即多任务参数共享层网络;S2)、多任务参数共享层网络使用全连接的神经网络对三个任务传递来的特征向量进行拼接和训练,并将训练结果反向传递给负责训练三个任务的带有条件随机场的双向LSTM神经网络的输入层;S3)、经过多个周期的迭代训练后,输出带有句子主干标注信息的结果序列。2.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,使用带有条件随机场的双向LSTM神经网络对中文分词语料进行分词,具体如下:输入的中文句子分为训练集和测试集两类,训练集中的句子采用人工标注的方式进行分词,用空格作为词与词之间的分隔符;测试集中的句子则是未经过分词的中文句子;带有条件随机场的双向LSTM神经网络在训练集上训练分词模型,在测试集上测试该模型的性能。3.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,带有条件随机场的双向LSTM神经网络进行命名实体识别,具体如下:输入的中文命名实体识别语料分为训练集和测试集两类;训练集中的句子通过人工标注了命名实体,所采用的标记方法是BIO标记法,其中,B表示命名实体的开始词;I表示命名实体的中间词或结尾词;O表示命名实体之外的词;将带有上述BIO标记的人工标注好命名实体的训练集句子输入到带有条件随机场的双向LSTM网络中,对神经网络进行训练,通过调节神经网络的参数实现模型的优化;将一个未带有BIO序列标记的只分好词的中文句子输入到训练好的神经网络中,神经网络会给该句子中的每个词自动标注一个BIO标记,从而实现命名实体的自动学习和识别。4.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,带有条件随机场的双向LSTM神经网络进行中文句子主干分析,具体如下:与前面的中文分词和命名实体识别相似,输入的中文句子主干分析语料分为训练集和测试集两类;将人工标注了句子主干成分的中文句子作为训练集,将未标注句子主干成分的句子作为测试集,输入到带有条件随机场的双向LSTM网络中,进行训练;其中标记句子主干成分采用Y/N标记方法标记出来,Y表示是句子主干成分,N表示不是句子主干成分;将上一层网络识别出来的命名实体作为一个长词看待;带有条件随机场的双向LSTM神经网络在上述训练集上训练句子主干分析模型,在测试集上测试该模型的性能。5.根据权利要求1所述的一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法,其特征在于:步骤S1)中,将三个网络的输出向量分别传递给多任务参数共享层网络,具体如下:负责上述三个任务(中文分词任务...

【专利技术属性】
技术研发人员:陈涛吴明芬
申请(专利权)人:五邑大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1