一种基于双向LSTM和CRF的命名实体识别方法技术

技术编号:17162131 阅读:32 留言:0更新日期:2018-02-01 20:24
本发明专利技术公开了一种基于双向LSTM和CRF的命名实体识别方法,该方法是基于现有的传统命名实体识别算法进行的改进优化,具体步骤如下:(1)对文本进行预处理,提取文本词组信息和字符信息。(2)利用双向LSTM神经网络对文本字符信息进行编码转换成字符向量。(3)利用glove模型对文本词组信息进行编码转换成词向量。(4)将字符向量和词向量组合成上下文信息向量,并放入双向LSTM神经网络中。(5)利用线性链条件随机场对双向LSTM的输出进行解码,得到文本标注实体。本发明专利技术利用深度神经网络提取文本特征,结合条件随机场进行解码,可以有效提取文本特征信息并且能够在不同语言的实体识别任务上取得很好的效果。

A named entity recognition method based on bidirectional LSTM and CRF

The invention discloses a method for named entity recognition and bidirectional LSTM based on CRF, this method is improved to optimize the existing traditional named entity recognition algorithm based on the specific steps are as follows: (1) the text preprocessing, text information and character information extraction. (2) a two-way LSTM neural network is used to code the text character information into a character vector. (3) the glove model is used to transform the text phrase information into the word vector. (4) the character vector and the word vector are combined into the context information vector and put into the bidirectional LSTM neural network. (5) the output of bidirectional LSTM is decoded with the linear chain condition with the airport, and the text annotation entity is obtained. The invention uses deep neural network to extract text features, and combines conditional random fields to decode, which can effectively extract text feature information and achieve good results in different language entity recognition tasks.

【技术实现步骤摘要】
一种基于双向LSTM和CRF的命名实体识别方法
本专利技术涉及一种命名实体识别方法,尤其涉及一种基于双向LSTM和CRF的命名实体识别方法。
技术介绍
命名实体识别(NamedEntitiesRecognition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)的一个基础任务,其目的是识别输入文本中人名、地名、组织机构名等命名实体。在命名实体识别领域,现有的技术可以分为两类,一类是基于词典和规则的方法,根据词组出现的频率对高频词构建词组词典,对于可以在词典中检索到的词直接将其识别为命名实体;或者根据词组的组成规则,例如机构名称通常包含地点和职能信息等,将满足相应规则的词组直接进行标注。另一种是基于统计学习的方法,相关方法有,条件随机场(CRF),隐马尔可夫模型(HMM),最大熵模型(MaximumEntropy),其中条件随机场近年来广泛运用于命名实体识别领域。上述基于词典和规则的方法依赖于词典和规则的构造,在处理新词和流行词方面有很大的局限性;上述基于统计模型的方法依赖于人工特征选取,对于特征选取需要大量专业知识和工程经验,同时还需要花费大量人力和时间,已经不能满足人们的要求。
技术实现思路
本专利技术的目的在于提供一种基于双向LSTM和CRF的命名实体识别方法,有效解决了实际应用中传统命名实体识别的低效率、低准确率问题。本专利技术采用如下技术方案实现:一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;步骤(2):针对步骤(1)中字符特征信息利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组进行标注,输出得到文本序列中的实体信息,所述条件随机场以步骤(5)中的输出作为输入,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的实体类别标签序列。进一步的,步骤(1)中,所述对文本预处理指的是采用开源工具对输入文本进行分词并将词组分解成单个字符形式,对文本进行实体标注,得到带标签文本,对字符,单词和标签进行统计和编号,构造字符表,单词表和标签表。进一步的,步骤(2)和步骤(5)中,所述双向LSTM神经网络包含两个隐含层,一个隐含层表示前向LSTM神经网络,另一个隐含层表示后向LSTM神经网络,利用前向LSTM神经网络提取当前文本信息,利用后向LSTM神经网络提取未来文本信息,通过双向遍历充分提取文本特征信息。本专利技术的有益技术效果是:1、提供了一种基于深度学习的命名实体识别方法,首先采用双向LSTM神经网络对字符向量提取特征,将字符向量结合预训练过的词向量作为数据输入到另一个双向LSTM中进一步提取特征。将神经网络的输出作为CRF的输入计算最优标签序列完成识别过程。相比于传统命名实体识别方法,本专利技术减少了特征提取的工作量,简化了信息处理过程,明显提高识别效率并且减少大量人力成本。2、本专利技术将字符和词组转化为固定长度向量,相比于传统的one-hot向量,本专利技术中的字符向量和词向量能够更好挖掘语义关系并且明显降低词组维度,不仅能够减少存储空间而且提高了模型训练效率。3、本专利技术采用双向LSTM神经网络结合传统CRF,应用场景广泛,能够解决不同领域的命名实体识别问题,拥有很强的模型泛化能力。附图说明图1是本专利技术实施例采用的基于双向LSTM和CRF的命名实体识别的工作流程图。图2是本专利技术实施例采用的字向量训练结构示意图。图3是本专利技术实施例采用的双向LSTM的网络结构示意图。图4是本专利技术实例采用的CRF模型结构示意图。具体实施方式通过下面对实施例的描述,将更加有助于公众理解本专利技术,但不能也不应当将申请人所给出的具体的实施例视为对本专利技术技术方案的限制,任何对部件或技术特征的定义进行改变和/或对整体结构作形式的而非实质的变换都应视为本专利技术的技术方案所限定的保护范围。实施例:本实施例提供了一种于双向LSTM和CRF的命名实体识别方法,所述方法的流程图如图1所示,包括以下步骤:步骤一:利用开源工具对文本进行分词并将词组分解成单个字符形式。对字符,单词和标签进行统计和编号,构造字符表和词组表。对文本进行人工标注,统计文本标签构造标签表。本步骤中,我们采用BIO标注集对文本语料进行标注,即标注集中包含{B,I,O},其中B表示命名实体的开头,I表示命名实体剩余部分,O表示不属于实体部分。对于命名实体我们使用PER表示人物,LOC表示地点,FAC表示设施。步骤二:将步骤一中字符特征以向量表示,初始化字符表C,确定每个字符的维度d1,得到字符向量矩阵Q∈Rd1×|C|。将字符向量矩阵作为双向LSTM神经网路的输入对字符进行编码,得到一个固定大小的输出向量wc∈Rd1,所述字符向量训练如图2所示。步骤三:将步骤一中提取出来的词语特征利用glove模型进行预训练得到词向量wp∈Rd2。本步骤中,利用glove训练得到的词向量能够包含良好的语义特征,每个向量代表一个词组,每个词向量的维度可以自行调整,一般可选的维度为50,100,200等。步骤四:将步骤二中得到的字符向量和步骤三中得到的词向量进行合并,得到上下文信息向量w=[wc,wp]。步骤五:将步骤四中得到的上下文信息向量w传入双向LSTM进行训练,得到输入文本的语义信息特征。本步骤中,双向LSTM神经网络结构示意图如图3所示,拥有两个隐含层,一个隐含层表示前向LSTM神经网络,另一个隐含层表示后向LSTM神经网络。每个隐含层拥有固定大小的LSTM内核。本步骤中,双向LSTM神经网络中的LSTM内核是对传统RNN(RecurrentNeuralNetwork)的一种改进,通过增加遗忘机制、保存机制来选择性的遗忘和保留输入信息,能有效避免RNN在求导时梯度消失或者梯度爆炸的问题。LSTM网络包含一个输入层,两个隐含层和一个softmax层,通过反向传播算法进行学习,其具体公式描述如下:其中it、ft、ot分别为上述的遗忘机制,保存机制和输出机制。bi、bf、bo分别表示相应机制的偏置向量。t表示当前时刻,t-1表示上一时刻。w和h表示相应的权重,ct和ht分别表示当前时刻激活函数的输出和当前时刻的输出。其中遗忘机制能够读取ht-1和xt-1,输入到相应σ函数中,得到一个0到1之间的数值,0表示完全舍弃,1表示完全保留。遗忘机制可以控制文本上下文对当前词组的影响,避免词组距离当前词越远影响力越小使得神经网络无法提取文本信息。其中保存机制包含两个部分,第一部分在sigmoid层决定什么信息我们需要更新,另一部分在tanh层创建新的候选值向量并加入本文档来自技高网...
一种基于双向LSTM和CRF的命名实体识别方法

【技术保护点】
一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;步骤(2):针对步骤(1)中的字符特征信息,利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组进行标注,输出得到文本序列中的实体信息,所述条件随机场以步骤(5)中的输出作为输入,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的实体类别标签序列。

【技术特征摘要】
1.一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;步骤(2):针对步骤(1)中的字符特征信息,利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组...

【专利技术属性】
技术研发人员:薛涵凛顾孙炎
申请(专利权)人:南京安链数据科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1