A method of named entity recognition based on feature fusion belongs to the field of computer. It extracts and fuses different granularity text features, conceptual features and non-conceptual word features in two aspects, so as to improve the accuracy of named entity recognition and reduce the computational load. The method includes data preprocessing module, feature building module, training named entity network model module and named entity classifier module. The feature module includes four sub-modules: semantic feature extraction, word feature extraction, character feature extraction and feature fusion. In this method, we consider the context information of named entity tasks by combining the temporal memory characteristics of LSTM (Long Short Term Memory) or GRU (Gated Recurrent Unit). Finally, we use softmax to predict entity class labels. In the process of model construction, sparse data can be used as training set and LSTM and GRU neural network models can be compared to ensure that the present invention achieves satisfactory results in entity recognition tasks.
【技术实现步骤摘要】
一种基于特征融合的命名实体识别方法
本专利技术属于计算机领域,涉及一种基于特征融合的命名实体识别方法。
技术介绍
近年来,随着人工智能技术在自然语言处理(NaturalLanguageProcessing,NLP)领域的广泛应用,人们对领域知识的探索也越来越多。命名实体识别是构成领域知识的基础,也是至关重要的一个步骤,例如:知识图谱构建、文本检索、文本分类和信息抽取等领域中都需要进行命名实体识别。命名实体识别(NamedEntityRecognition,NER)可以看作是一个序列标注任务,通过提取出来的信息来查找实体并将其分为一组固定的类别。传统NER问题的两种主要方法是基于规则的学习方法和有监督的学习方法,其中有监督的学习方法占主导地位。基于规则学习的方法和有监督的学习方法都是假设可用的训练数据已全部标记(即,所有包含在文档中的实体都被标记)的前提下,在从文档中找到候选实体的标签序列。然而,在如今的大数据时代将充分标注的数据作为训练集是非常耗时耗力的,并且由于大多数领域术语的特殊性,如今的命名实体识别任务还存在以下挑战:(1)现实生活中大部分是半结构或非结构化的,并且很多信息是叙述性的,无结构信息,不适用于知识的发现和抽取;(2)领域实体本身结构复杂并且相同概念具有多种表达方法,例如在医疗领域:慢性阻塞性肺疾病可以缩写为COPD;(3)命名实体通常是由多个词组成,仅考虑词特征会使语义信息割裂。基于以上问题,传统的命名实体识别方法已经很难适用于如今的应用场景。目前,随着深度学习在各个领域中都优异的表现,在命名实体识别任务中的应用也越来越多,相比较传统方法 ...
【技术保护点】
1.一种基于特征融合的命名实体识别方法,其特征包括以下四个模块:数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)、命名实体分类器模块(4);(1)数据预处理模块在已标注的训练集中加入未标注的数据形成稀疏标记的语料库,并载入领域本体;根据标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词;(2)特征构建模块该模块分为特征提取和特征融合,具体分为四个子模块:语义特征提取、词特征提取、字符特征提取和特征融合;(3)训练命名实体网络模型模块将融合后的特征作为模型的输入进行训练,由于命名实体识别也称为序列标注任务,需要提取上下文信息辅助推断实体类别,因此训练模型将采用具有时序记忆功能的神经网络模型LSTM或GRU;(4)命名实体分类器模块根据神经网络LSTM或GRU模型的softmax分类器来产生最后的实体标签分类结果。
【技术特征摘要】
1.一种基于特征融合的命名实体识别方法,其特征包括以下四个模块:数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)、命名实体分类器模块(4);(1)数据预处理模块在已标注的训练集中加入未标注的数据形成稀疏标记的语料库,并载入领域本体;根据标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词;(2)特征构建模块该模块分为特征提取和特征融合,具体分为四个子模块:语义特征提取、词特征提取、字符特征提取和特征融合;(3)训练命名实体网络模型模块将融合后的特征作为模型的输入进行训练,由于命名实体识别也称为序列标注任务,需要提取上下文信息辅助推断实体类别,因此训练模型将采用具有时序记忆功能的神经网络模型LSTM或GRU;(4)命名实体分类器模块根据神经网络LSTM或GRU模型的softmax分类器来产生最后的实体标签分类结果。2.根据权利要求1所述的一种基于特征融合的命名实体识别方法,其特征在于步骤(2),具体如下:语义特征提取(21):语义特征包含两个部分:概念特征和非概念词特征;其中,概念是指由多个包含语义的单独词汇组成的一个特殊的领域术语;非概念词就是指一个单独的语义词汇;对于能够从领域本体里映射出概念的提取概念特征,不能提取概念的直接提取词特征;首先将预处理后的语料映射到领域本体,通过最大匹配法将数据切分为语义集{Y1,...YN}∈D,其中包含概念集和非概念词集{G1,...GN}∪{F1,...FN}∈Y;其次采用CBOW模型来提取语义特征,CBOW的训练目标是将如下平均对数概率的最大化,公式为:其中,K为数据集D中目标词的上下文信息,Yi为数据集D中的语义;在CBOW中,概率Pr(Yi|Yi-K,...,Yi+K)是由如下公式算出的:其中,y0和yi为目标语义Yi输入和输出的向量表示,并且y0为所有上下文的平均向量表示,T是转秩,W为语义词典;词特征提取(22):词特征提取分为两种情况,基于概念的词特征提取和基于非概念的词特征提取;基于概念的词特征提取是在概念特征的基础上提取词特征,由于一个概念是由多个词组成的G={C1,...CN},因此概念的含义是由所包含的词决定的;基于概念的词特征提取的公式表示为:其中,gi为概念Gi的概念向量,cj为...
【专利技术属性】
技术研发人员:赵青,王丹,杜金莲,付利华,苏航,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。