当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法技术

技术编号:15200353 阅读:3454 留言:0更新日期:2017-04-22 01:54
本发明专利技术公开了一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法。该方法包括如下步骤:(1)利用卷积神经网络对文本单词字符层面的信息进行编码转换成字符向量;(2)将字符向量与词向量进行组合并作为输入传到双向LSTM神经网络来对每个单词的上下文信息进行建模;(3)在LSTM神经网络的输出端,利用连续的条件随机场来对整个句子进行标签解码,并标注句子中的实体。本发明专利技术是一个端到端的模型,不需要未标注语料集中除预训练好的词向量之外的数据预处理,因此本发明专利技术能在不同的语言和领域的语句标注中有广泛应用。

A named entity recognition method LSTM, CNN and Bi text based on CRF

The invention discloses a method for named entity recognition in LSTM, CNN and Bi text based on CRF. The method comprises the following steps: (1) the text word character level information encoding into character vector using convolutional neural network; (2) the character vector and the word vector are combined and used as input to the LSTM neural network to bidirectional context of each word information modeling; (3) in the output of LSTM neural end of the network, with the airport to label the decoding of the whole sentence using continuous condition, and mark in the sentence entity. The invention is a model of end to end, does not need the unlabeled corpus centralized data pretreatment except the word vector pre trained, so the invention has wide application in different languages and field annotation statements.

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种基于双向LSTM神经网络、卷积神经网络和条件随机场(CRF)的文本命名实体识别方法。
技术介绍
自然语言处理(NatureLanguageProcessing,简称NLP)是一门集语言学与计算机科学为一体的交叉学科。命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理中的一项基本任务,旨在识别出自然语言文本中的专有名词和有意义的数量短语,并加以分类。随着信息抽取和大数据概念的兴起,命名实体识别任务日益受到人们重视,已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地识别出命名实体,逐渐成为了学术界和工业界关注的热点问题。高性能的命名实体识别方法一般应用条件随机场(CRF)、SVM和感知器来对手工处理的特征进行建模。一些研究人员提出了一种只需要少量的特征工程的高效神经网络模型,该模型不需要从大量未标注数据中学习到的重要词向量特征,而是通过非监督学习的方法从大量数据中提取向量特征。然而这种模型有很多限制。首先,该模型利用了一个简单的前馈神经网络,该网络将每个单词的上下文信息限制在了固定长度的窗口之中,这种方法放弃了长距离单词之间的信息;其次,因为只依赖词向量信息,该方法并不能探究单词字符层次特征,比如说前缀信息和后缀信息等,这些信息往往会很有用,尤其是在训练效果很差的词向量表达的生词中。我们寻求一种能够解决上述问题的更加有效的神经网络模型。递归神经网络(Recurrentneuralnetwork,简称RNN)能够处理可变长度的输入向量,并在处理过程中能够有长时期的记忆。近年来,RNNs在多样的NLP任务(如语音识别,机器翻译和语言建模等)处理上有了巨大的成功。带有forgetgate的长短期记忆人工神经网络(Long-shorttermmemory,简称LSTM)让长距离依赖的重要依赖能够很容易的被学习。对于诸如命名实体识别和语音识别等的序列标记任务,对于单词不确定长度的上下文问题,或者说上下文的限制问题,双向LSTM(Bi-LSTM)神经网络是高效的:当LSTMs在命名实体识别任务中通过过去的信息来学习时,计算能力的限制和词向量的质量会限制它们的效率。卷积神经网络(Convolutionalneuralnetwork,简称CNN)同样在NLP任务中用来对字符层面的信息进行建模,并且已有成功运用CNN提取字符特征并将特征应用到命名实体识别任务中去的例子。
技术实现思路
本专利技术的目的是为了对自然文本中的实体进行检测并进行标注,以得到有效的文本信息,提出一种基于双向LSTM神经网络、卷积神经网络和条件随机场(CRF)的文本命名实体识别方法。基于Bi-LSTM、CNN和CRF的文本命名实体识别方法,包括如下步骤:(1)根据文本数据进行数据预处理,对文本进行分句、分词,得到字符特征向量;(2)利用卷积神经网络对每一个单词进行字符特征向量提取;(3)将字符特征向量与词向量组合,传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入语句信息特征;(4)针对(3)中所得到的语义特征,利用条件随机场来对每个单词进行实体标注,标记出语句序列中的实体信息。上述各步骤可具体采用如下实现方式:对文本数据进行数据预处理,对文本进行分句、分词,得到字符特征向量的步骤可具体实现如下:(1)采用自然语言处理工具对文档进行分句和分词,使得文档以句子和每句一个token呈现;(2)对上一步(1)中得到的句子、单词和标签进行统计,形成句表、词汇表和标签表;(3)对上一步(1)中的单词表中字符进行统计,形成字符表;(4)利用已有的预训练好的词向量和字符表来形成字符特征向量。所述的利用卷积神经网络对每一个单词进行字符特征向量提取的步骤可具体实现如下:(1)令C为字符表,d为每个字符向量的维度,字符向量矩阵为:Q∈Rd×|C|;(2)预设单词k∈V由连续的字符[c1,c2,...,cl]组成,其中l为单词k的长度,则k的字符向量矩阵由Ck∈Rd×l给出,其中第i列为字符ci的向量;(3)在Ck和一个宽度为w的内核H∈Rd×w之间实现卷积层,在此之后给卷积层添加偏置值bias,并将整个卷积结果进行非线性回归来实现特征映射mapfk∈Rl-w+1,其中,映射函数fk的第i个元素fk[i]由(1)式给出;fk[i]=tanh(<Ck[*,i:i+w-1],H>+b)(1)其中*为所有行数,Ck[*,i:i+w-1]为Ck中第i列到第i+w-1列,<,>为Frobenius内积,b为偏置向量;(4)最后,以作为内核H的对应特征表达。将字符特征向量与词向量组合,传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入语句信息特征的步骤如下:(1)定义xt为t时刻的输入字符特征向量,ht为在t时刻存储所有有用信息的隐藏层状态向量,σ为sigmoid回归层,*为内积,Ui,Uf,Uc,Uo为不同状态下针对输入xt的权重矩阵,Wi,Wf,Wc,Wo为隐藏层状态ht的权重矩阵,bi,bf,bc,bo为偏置向量;(2)在t时刻forgetgate的计算如(2)式所示:ft=σ(Wfht-1+Ufxt+bf)(2)(3)在t时刻更新ht-1中存储的所有信息,计算公式如(3)、(4)式所示:it=σ(Wiht-1+Uixt+bi)(3)其中为t时刻可以被加入到cellstate的向量;(4)在t时刻将t-1时刻存储的信息更新为t时刻的存储信息,计算公式为式(5):其中为t时刻cellstate的向量;(5)在t时刻的输出如式(6)所示,并更新ht,计算公式如式(7):ot=σ(Woht-1+Uoxt+bo)(6)ht=ot*tanh(Ct)(7)其中ot为t时刻的输出;ht为t时刻隐藏层的向量;(6)上述步骤中的ht存储过去时刻的所有信息,用同样的方法再设置一个gt用于存储未来的信息,最后两个隐藏层信息通过级联来形成最后的输出向量。利用条件随机场来对每个单词进行实体标注,标记出语句序列中的实体信息可具体实现步骤如下:(1)用z={z1,z2,...,zn本文档来自技高网
...

【技术保护点】
一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法,其特征在于包括如下步骤:(1)根据文本数据进行数据预处理,对文本进行分句、分词,得到字符特征向量;(2)利用卷积神经网络对每一个单词进行字符特征向量提取;(3)将字符特征向量与词向量组合,传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入语句信息特征;(4)针对(3)中所得到的语义特征,利用条件随机场来对每个单词进行实体标注,标记出语句序列中的实体信息。

【技术特征摘要】
1.一种基于Bi-LSTM、CNN和CRF的文本命名实体识别方法,其特征在于包括如下步骤:(1)根据文本数据进行数据预处理,对文本进行分句、分词,得到字符特征向量;(2)利用卷积神经网络对每一个单词进行字符特征向量提取;(3)将字符特征向量与词向量组合,传入到LSTM神经网络,利用双向LSTM神经网络来训练得到输入语句信息特征;(4)针对(3)中所得到的语义特征,利用条件随机场来对每个单词进行实体标注,标记出语句序列中的实体信息。2.根据权利要求1所述的一种基于Bi-LSTM、CNN和CRF的文本命名实体识别方法,其特征在于对文本数据进行数据预处理,对文本进行分句、分词,得到字符特征向量的步骤如下:(1)采用自然语言处理工具对文档进行分句和分词,使得文档以句子和每句一个token呈现;(2)对句子、单词和标签进行统计,形成句表、词汇表和标签表;(3)对单词表中字符进行统计,形成字符表;(4)利用已有的预训练好的词向量和字符表来形成字符特征向量。3.根据权利要求1所述的一种基于Bi-LSTM、CNN和CRF的文本命名实体识别方法,其特征在于所述的利用卷积神经网络对每一个单词进行字符特征向量提取的步骤如下:(1)令C为字符表,d为每个字符向量的维度,字符向量矩阵为:Q∈Rd×|C|;(2)预设单词k∈V由连续的字符[c1,c2,...,cl]组成,其中l为单词k的长度,则k的字符向量矩阵由Ck∈Rd×l给出,其中第i列为字符ci的向量;(3)在Ck和一个宽度为w的内核H∈Rd×w之间实现卷积层,在此之后给卷积层添加偏置值bias,并将整个卷积结果进行非线性回归来实现特征映射mapfk∈Rl-w+1,其中,映射函数fk的第i个元素fk[i]由(1)式给出;fk[i]=tanh(<Ck[*,i:i+w-1],H>+b)(1)其中*为所有行数,Ck[*,i:i+w-1]为Ck中第i列到第i+w-1列,&...

【专利技术属性】
技术研发人员:汤斯亮吴飞张宁戴洪良庄越挺张寅
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1