一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法技术

技术编号：15200353 阅读：3454 留言：0更新日期：2017-04-22 01:54

本发明专利技术公开了一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法。该方法包括如下步骤：(1)利用卷积神经网络对文本单词字符层面的信息进行编码转换成字符向量；(2)将字符向量与词向量进行组合并作为输入传到双向LSTM神经网络来对每个单词的上下文信息进行建模；(3)在LSTM神经网络的输出端，利用连续的条件随机场来对整个句子进行标签解码，并标注句子中的实体。本发明专利技术是一个端到端的模型，不需要未标注语料集中除预训练好的词向量之外的数据预处理，因此本发明专利技术能在不同的语言和领域的语句标注中有广泛应用。

A named entity recognition method LSTM, CNN and Bi text based on CRF

The invention discloses a method for named entity recognition in LSTM, CNN and Bi text based on CRF. The method comprises the following steps: (1) the text word character level information encoding into character vector using convolutional neural network; (2) the character vector and the word vector are combined and used as input to the LSTM neural network to bidirectional context of each word information modeling; (3) in the output of LSTM neural end of the network, with the airport to label the decoding of the whole sentence using continuous condition, and mark in the sentence entity. The invention is a model of end to end, does not need the unlabeled corpus centralized data pretreatment except the word vector pre trained, so the invention has wide application in different languages and field annotation statements.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种基于双向LSTM神经网络、卷积神经网络和条件随机场(CRF)的文本命名实体识别方法。
技术介绍
自然语言处理(NatureLanguageProcessing，简称NLP)是一门集语言学与计算机科学为一体的交叉学科。命名实体识别(NamedEntityRecognition，简称NER)是自然语言处理中的一项基本任务，旨在识别出自然语言文本中的专有名词和有意义的数量短语，并加以分类。随着信息抽取和大数据概念的兴起，命名实体识别任务日益受到人们重视，已成为舆情分析、信息检索、自动问答、机器翻译等自然语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地识别出命名实体，逐渐成为了学术界和工业界关注的热点问题。高性能的命名实体识别方法一般应用条件随机场(CRF)、SVM和感知器来对手工处理的特征进行建模。一些研究人员提出了一种只需要少量的特征工程的高效神经网络模型，该模型不需要从大量未标注数据中学习到的重要词向量特征，而是通过非监督学习的方法从大量数据中提取向量特征。然而这种模型有很多限制。首先，该模型利用了一个简单的前馈神经网络，该网络将每个单词的上下文信息限制在了固定长度的窗口之中，这种方法放弃了长距离单词之间的信息；其次，因为只依赖词向量信息，该方法并不能探究单词字符层次特征，比如说前缀信息和后缀信息等，这些信息往往会很有用，尤其是在训练效果很差的词向量表达的生词中。我们寻求一种能够解决上述问题的更加有效的神经网络模型。递归神经网络(Recurrentneuralnetwork，简称RNN)能够处理...

【技术保护点】
一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法，其特征在于包括如下步骤：(1)根据文本数据进行数据预处理，对文本进行分句、分词，得到字符特征向量；(2)利用卷积神经网络对每一个单词进行字符特征向量提取；(3)将字符特征向量与词向量组合，传入到LSTM神经网络，利用双向LSTM神经网络来训练得到输入语句信息特征；(4)针对(3)中所得到的语义特征，利用条件随机场来对每个单词进行实体标注，标记出语句序列中的实体信息。

【技术特征摘要】
1.一种基于Bi-LSTM、CNN和CRF的文本命名实体识别方法，其特征在于包括如下步骤：(1)根据文本数据进行数据预处理，对文本进行分句、分词，得到字符特征向量；(2)利用卷积神经网络对每一个单词进行字符特征向量提取；(3)将字符特征向量与词向量组合，传入到LSTM神经网络，利用双向LSTM神经网络来训练得到输入语句信息特征；(4)针对(3)中所得到的语义特征，利用条件随机场来对每个单词进行实体标注，标记出语句序列中的实体信息。2.根据权利要求1所述的一种基于Bi-LSTM、CNN和CRF的文本命名实体识别方法，其特征在于对文本数据进行数据预处理，对文本进行分句、分词，得到字符特征向量的步骤如下：(1)采用自然语言处理工具对文档进行分句和分词，使得文档以句子和每句一个token呈现；(2)对句子、单词和标签进行统计，形成句表、词汇表和标签表；(3)对单词表中字符进行统计，形成字符表；(4)利用已有的预训练好的词向量和字符表来形成字符特征向量。3.根据权利要求1所述的一种基于Bi-LSTM、CNN和CRF的文本命名实体识别方法，其特征在于所述的利用卷积神经网络对每一个单词进行字符特征向量提取的步骤如下：(1)令C为字符表，d为每个字符向量的维度，字符向量矩阵为：Q∈Rd×|C|；(2)预设单词k∈V由连续的字符[c1,c2,...,cl]组成，其中l为单词k的长度，则k的字符向量矩阵由Ck∈Rd×l给出，其中第i列为字符ci的向量；(3)在Ck和一个宽度为w的内核H∈Rd×w之间实现卷积层，在此之后给卷积层添加偏置值bias，并将整个卷积结果进行非线性回归来实现特征映射mapfk∈Rl-w+1，其中，映射函数fk的第i个元素fk[i]由(1)式给出；fk[i]＝tanh(<Ck[*,i:i+w-1],H>+b)(1)其中*为所有行数，Ck[*,i:i+w-1]为Ck中第i列到第i+w-1列，&...

【专利技术属性】
技术研发人员：汤斯亮，吴飞，张宁，戴洪良，庄越挺，张寅，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人