【技术实现步骤摘要】
一种命名实体识别方法
本专利技术涉及一种命名实体识别方法,属于信息
技术介绍
随着互联网和信息产业的高速发展,海量的文本数据不断产生,如何高效地从海量的文本数据中获得有用的信息成为现在的研究热点,信息抽取技术应运而生,而命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。在自然语言处理应用领域中,命名实体识别是信息检索、机器翻译、情感分析等多项自然语言处理应用的基础任务,因此,对它的研究具有重要意义和价值。一般地,命名实体类型多样,数量众多,不断有新的命名实体出现,传统的命名实体识别技术不能有效地识别出新词;同时,命名实体构成结构比较复杂,命名实体的长度没有一定的限制,不同的实体有不同的结构,实体之间可能存在大量的嵌套、别名、缩略词等问题,所以单一的基于统计模型的命名实体识别技术对边界的识别会变得不够准确,以上所述都会给命名实体识别造成困难。
技术实现思路
本专利技术要解决的技术问题是针对现有技术的局限和不足,提供一种命名实体识别方法,引入LSTM神经网络,解决了单一的基于统计模型的命名实体识别技术对边界的识别不够准确,新词识别率 ...
【技术保护点】
1.一种命名实体识别方法,其特征在于:①建立命名实体识别语料库;②对待识别的文本数据进行分词;③利用语料库训练已引入LSTM神经网络的命名实体识别模型;④利用CRF模型对已分好词的文本数据进行人名识别;⑤用训练好的命名实体识别模型进行地名和机构名的识别;⑥对人名、地名和机构名分别进行去重操作得到最后的命名实体识别结果。
【技术特征摘要】
1.一种命名实体识别方法,其特征在于:①建立命名实体识别语料库;②对待识别的文本数据进行分词;③利用语料库训练已引入LSTM神经网络的命名实体识别模型;④利用CRF模型对已分好词的文本数据进行人名识别;⑤用训练好的命名实体识别模型进行地名和机构名的识别;⑥对人名、地名和机构名分别进行去重操作得到最后的命名实体识别结果。2.根据权利要求1所述的命名实体识别方法,其特征在于:所述步骤①的命名实体识别语料库用于训练命名实体识别模型,语料库为已标注好的字构成的库。3.根据权利要求2所述的命名实体识别方法,其特征在于:所述的标注采用的为BMES标注集,其中B标签表示词首,M标签表示词中,E标签表示词尾,S标签表示单字。4.根据权利要求1所述的命名实体识别方法,其特征在于:所述步骤②的分词采用的方法为半监督的方式,即将每次输出的分词结果存入分词词典中,以供下次分词使用,具体实现为:取五分之一的文本数据进行分词,将分词结果加入分词词典,再取五分之一的文本数据进行分词,将分词结果加入分词词典,以此类推,按照此方式将所有文本数据进行分词。5.根据权利要求1所述的命名实体识别方法,其特征在于:所述步骤③的引入LSTM神经网络的命名实体识别模型共包含三层,第一层为预处理层,即利用随机初始化的矩阵将分词结果中的每个字由one-hot向量映射为低维稠密的...
【专利技术属性】
技术研发人员:龙华,吴睿,熊新,邵玉斌,杜庆治,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。