The invention discloses a method for named entity recognition and bidirectional LSTM based on CRF, this method is improved to optimize the existing traditional named entity recognition algorithm based on the specific steps are as follows: (1) the text preprocessing, text information and character information extraction. (2) a two-way LSTM neural network is used to code the text character information into a character vector. (3) the glove model is used to transform the text phrase information into the word vector. (4) the character vector and the word vector are combined into the context information vector and put into the bidirectional LSTM neural network. (5) the output of bidirectional LSTM is decoded with the linear chain condition with the airport, and the text annotation entity is obtained. The invention uses deep neural network to extract text features, and combines conditional random fields to decode, which can effectively extract text feature information and achieve good results in different language entity recognition tasks.
【技术实现步骤摘要】
一种基于双向LSTM和CRF的命名实体识别方法
本专利技术涉及一种命名实体识别方法,尤其涉及一种基于双向LSTM和CRF的命名实体识别方法。
技术介绍
命名实体识别(NamedEntitiesRecognition,NER)是自然语言处理(NaturalLanguageProcessing,NLP)的一个基础任务,其目的是识别输入文本中人名、地名、组织机构名等命名实体。在命名实体识别领域,现有的技术可以分为两类,一类是基于词典和规则的方法,根据词组出现的频率对高频词构建词组词典,对于可以在词典中检索到的词直接将其识别为命名实体;或者根据词组的组成规则,例如机构名称通常包含地点和职能信息等,将满足相应规则的词组直接进行标注。另一种是基于统计学习的方法,相关方法有,条件随机场(CRF),隐马尔可夫模型(HMM),最大熵模型(MaximumEntropy),其中条件随机场近年来广泛运用于命名实体识别领域。上述基于词典和规则的方法依赖于词典和规则的构造,在处理新词和流行词方面有很大的局限性;上述基于统计模型的方法依赖于人工特征选取,对于特征选取需要大量专业知识和工程经验,同时还需要花费大量人力和时间,已经不能满足人们的要求。
技术实现思路
本专利技术的目的在于提供一种基于双向LSTM和CRF的命名实体识别方法,有效解决了实际应用中传统命名实体识别的低效率、低准确率问题。本专利技术采用如下技术方案实现:一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命 ...
【技术保护点】
一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;步骤(2):针对步骤(1)中的字符特征信息,利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组进行标注,输出得到文本序列中的实体信息,所述条件随机场以步骤(5)中的输出作为输入,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的实体类别标签序列。
【技术特征摘要】
1.一种基于双向LSTM和CRF的命名实体识别方法,其特征在于,该方法包括如下步骤:步骤(1):对文本进行预处理,得到文本的字符特征信息和词组特征信息,对文本进行标注,提取命名实体标签信息;步骤(2):针对步骤(1)中的字符特征信息,利用双向LSTM神经网络进行编码,得到字符向量,所述字符向量是将单个字符初始化为向量形式,加入双向LSTM中进行训练;步骤(3):针对步骤(1)中词组特征信息利用glove模型进行预训练,得到词向量,每一维代表了特定的词组特征,每个词组由特定的词向量表示;步骤(4):将步骤(2)中得到的字符向量和步骤(3)中得到的词向量进行合并,得到上下文信息向量;步骤(5):将步骤(4)中得到的上下文信息向量输入一个新的双向LSTM进行训练,得到输入文本的语义信息特征;步骤(6):针对步骤(5)中得到的语义信息特征,利用条件随机场对词组...
【专利技术属性】
技术研发人员:薛涵凛,顾孙炎,
申请(专利权)人:南京安链数据科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。