一种命名实体识别方法技术

技术编号:20389909 阅读:24 留言:0更新日期:2019-02-20 02:52
本发明专利技术涉及一种命名实体识别方法,属于信息技术领域。首先建立命名实体识别语料库,利用语料库训练已引入LSTM神经网络的命名实体识别模型;然后对待识别的文本数据进行分词;接着利用CRF模型对已分好词的文本数据进行人名识别;最后用训练好的命名实体识别模型进行地名和机构名的识别,结合人名通过去重操作得到命名实体识别的最终结果。本发明专利技术通过引入LSTM神经网络,解决了单一的基于统计模型的命名实体识别技术对边界的识别不够准确,新词识别率低,从而使得命名实体识别结果准确率低的现象,以提高命名实体识别的准确性。

【技术实现步骤摘要】
一种命名实体识别方法
本专利技术涉及一种命名实体识别方法,属于信息

技术介绍
随着互联网和信息产业的高速发展,海量的文本数据不断产生,如何高效地从海量的文本数据中获得有用的信息成为现在的研究热点,信息抽取技术应运而生,而命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务,因此,对它的研究具有重要意义和价值。一般地,命名实体类型多样,数量众多,不断有新的命名实体出现,传统的命名实体识别技术不能有效地识别出新词;同时,命名实体构成结构比较复杂,命名实体的长度没有一定的限制,不同的实体有不同的结构,实体之间可能存在大量的嵌套、别名、缩略词等问题,所以单一的基于统计模型的命名实体识别技术对边界的识别会变得不够准确,以上所述都会给命名实体识别造成困难。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种命名实体识别方法,引入LSTM神经网络,解决了单一的基于统计模型的命名实体识别技术对边界的识别不够准确,新词识别率低,从而使得命名实体识别结果准确率低的现象,以提高命名实体识别的准确性。本专利技术的技术方案是:一种命名实体识别方法,该方法引入了LSTM神经网络对单一的基于统计模型的命名实体识别技术进行改进,具体包括以下6个步骤:①建立命名实体识别语料库。②对待识别的文本数据进行分词。③利用语料库训练已引入LSTM神经网络的命名实体识别模型。④利用CRF模型对已分好词的文本数据进行人名识别。⑤用训练好的命名实体识别模型进行地名和机构名的识别。⑥对人名、地名和机构名分别进行去重操作得到最后的命名实体识别结果。进一步地,步骤①所述的命名实体识别语料库用于训练命名实体识别模型,语料库为已标注好的字构成的库。进一步地,所述的标注采用的为BMES标注集,其中B标签表示词首,M标签表示词中,E标签表示词尾,S标签表示单字。进一步地,步骤②所述的分词采用的方法为半监督的方式,即将每次输出的分词结果存入分词词典中,以供下次分词使用,具体实现为:取五分之一的文本数据进行分词,将分词结果加入分词词典,再取五分之一的文本数据进行分词,将分词结果加入分词词典,以此类推,按照此方式将所有文本数据进行分词。进一步地,步骤③所述的引入LSTM神经网络的命名实体识别模型共包含三层,第一层为预处理层,即利用随机初始化的矩阵将分词结果中的每个字由one-hot向量映射为低维稠密的字向量,然后将字向量初始化为该字所在词的词向量;第二层为双向LSTM层,用来自动提取文本数据的特征,将每个词的词向量序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,从而得到双向LSTM的输出矩阵A;第三层为CRF层,用来对整个文本数据进行序列标注,从而得到CRF的转移矩阵B。进一步地,所述的one-hot向量为通过one-hot编码将离散的特征数字化得到的特征向量。进一步地,一个长度为n的标签序列通过模型计算后的总得分S(x,y)的计算公式为:其中,y为一个长度等于n的标签序列。进一步地,步骤④所述的人名识别通过CRF模型的特征模板来实现,所述特征模板可以自定义。进一步地,步骤⑤所述的地名和机构名的识别通过已训练好的命名实体识别模型来实现,模型在预测过程中使用viterbi算法来求解最优路径。进一步地,步骤⑥所述的去重操作的实施原因是由于通过模型进行命名实体识别会将相同的实体识别出来,造成信息冗余;所述的去重操作的实现是分别将每一个文本数据识别出来的人名、地名和机构名进行遍历,去除相同的实体。本专利技术的有益效果是:与现有技术相比,通过引入LSTM神经网络,解决了单一的基于统计模型的命名实体识别技术对边界的识别不够准确,新词识别率低,从而使得命名实体识别结果准确率低的现象,以提高命名实体识别的准确性。附图说明图1是本专利技术步骤流程图;图2是本专利技术步骤③流程图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1-2所示,一种命名实体识别方法,首先建立命名实体识别语料库,利用语料库训练已引入LSTM神经网络的命名实体识别模型;然后对待识别的文本数据进行分词;接着利用CRF模型对已分好词的文本数据进行人名识别;最后用训练好的命名实体识别模型进行地名和机构名的识别,结合人名得到命名实体识别的最终结果。具体步骤为:①建立命名实体识别语料库。②对待识别的文本数据进行分词。③利用语料库训练已引入LSTM神经网络的命名实体识别模型。④利用CRF模型对已分好词的文本数据进行人名识别。⑤用训练好的命名实体识别模型进行地名和机构名的识别。⑥对人名、地名和机构名分别进行去重操作得到最后的命名实体识别结果。进一步地,步骤①所述的命名实体识别语料库用于训练命名实体识别模型,语料库为已标注好的字构成的库。进一步地,所述的标注采用的为BMES标注集,其中B标签表示词首,M标签表示词中,E标签表示词尾,S标签表示单字。进一步地,步骤②所述的分词采用的方法为半监督的方式,即将每次输出的分词结果存入分词词典中,以供下次分词使用,具体实现为:取五分之一的文本数据进行分词,将分词结果加入分词词典,再取五分之一的文本数据进行分词,将分词结果加入分词词典,以此类推,按照此方式将所有文本数据进行分词。进一步地,步骤③所述的引入LSTM神经网络的命名实体识别模型共包含三层,第一层为预处理层,即利用随机初始化的矩阵将分词结果中的每个字由one-hot向量映射为低维稠密的字向量,然后将字向量初始化为该字所在词的词向量;第二层为双向LSTM层,用来自动提取文本数据的特征,将每个词的词向量序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列,从而得到双向LSTM的输出矩阵A;第三层为CRF层,用来对整个文本数据进行序列标注,从而得到CRF的转移矩阵B。进一步地,所述的one-hot向量为通过one-hot编码将离散的特征数字化得到的特征向量。进一步地,一个长度为n的标签序列通过模型计算后的总得分S(x,y)的计算公式为:其中,y为一个长度等于n的标签序列。进一步地,步骤④所述的人名识别通过CRF模型的特征模板来实现,所述特征模板可以自定义。进一步地,步骤⑤所述的地名和机构名的识别通过已训练好的命名实体识别模型来实现,模型在预测过程中使用viterbi算法来求解最优路径。进一步地,步骤⑥所述的去重操作的实施原因是由于通过模型进行命名实体识别会将相同的实体识别出来,造成信息冗余;所述的去重操作的实现是分别将每一个文本数据识别出来的人名、地名和机构名进行遍历,去除相同的实体。以上结合附图对本专利技术的具体实施方式作了详细说明,但是本专利技术并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本专利技术宗旨的前提下作出各种变化。本文档来自技高网...

【技术保护点】
1.一种命名实体识别方法,其特征在于:①建立命名实体识别语料库;②对待识别的文本数据进行分词;③利用语料库训练已引入LSTM神经网络的命名实体识别模型;④利用CRF模型对已分好词的文本数据进行人名识别;⑤用训练好的命名实体识别模型进行地名和机构名的识别;⑥对人名、地名和机构名分别进行去重操作得到最后的命名实体识别结果。

【技术特征摘要】
1.一种命名实体识别方法,其特征在于:①建立命名实体识别语料库;②对待识别的文本数据进行分词;③利用语料库训练已引入LSTM神经网络的命名实体识别模型;④利用CRF模型对已分好词的文本数据进行人名识别;⑤用训练好的命名实体识别模型进行地名和机构名的识别;⑥对人名、地名和机构名分别进行去重操作得到最后的命名实体识别结果。2.根据权利要求1所述的命名实体识别方法,其特征在于:所述步骤①的命名实体识别语料库用于训练命名实体识别模型,语料库为已标注好的字构成的库。3.根据权利要求2所述的命名实体识别方法,其特征在于:所述的标注采用的为BMES标注集,其中B标签表示词首,M标签表示词中,E标签表示词尾,S标签表示单字。4.根据权利要求1所述的命名实体识别方法,其特征在于:所述步骤②的分词采用的方法为半监督的方式,即将每次输出的分词结果存入分词词典中,以供下次分词使用,具体实现为:取五分之一的文本数据进行分词,将分词结果加入分词词典,再取五分之一的文本数据进行分词,将分词结果加入分词词典,以此类推,按照此方式将所有文本数据进行分词。5.根据权利要求1所述的命名实体识别方法,其特征在于:所述步骤③的引入LSTM神经网络的命名实体识别模型共包含三层,第一层为预处理层,即利用随机初始化的矩阵将分词结果中的每个字由one-hot向量映射为低维稠密的...

【专利技术属性】
技术研发人员:龙华吴睿熊新邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1