一种基于特征融合的命名实体识别方法技术

技术编号:21200277 阅读:50 留言:0更新日期:2019-05-25 01:21
一种基于特征融合的命名实体识别方法属于计算机领域,通过两个方面来提取和融合不同粒度的文本特征,概念特征和非概念词特征,从而来提高命名实体识别的准确率并降低计算量。方法包括:数据预处理模块、特征构建模块、训练命名实体网络模型模块和命名实体分类器模块,其中特征模块包括语义特征提取、词特征提取、字符特征提取、特征融合四个子模块。在本方法中结合神经网络模型LSTM(Long Short‑Term Memory)或GRU(Gated Recurrent Unit)的时序记忆特点来考虑命名实体任务的上下文信息,最后使用softmax预测实体类别标签。在模型构建过程中,可以利用稀疏数据作为训练集并对LSTM和GRU两种神经网络模型进行对比,确保本发明专利技术在实体识别任务上能取得令人满意的效果。

A Named Entity Recognition Method Based on Feature Fusion

A method of named entity recognition based on feature fusion belongs to the field of computer. It extracts and fuses different granularity text features, conceptual features and non-conceptual word features in two aspects, so as to improve the accuracy of named entity recognition and reduce the computational load. The method includes data preprocessing module, feature building module, training named entity network model module and named entity classifier module. The feature module includes four sub-modules: semantic feature extraction, word feature extraction, character feature extraction and feature fusion. In this method, we consider the context information of named entity tasks by combining the temporal memory characteristics of LSTM (Long Short Term Memory) or GRU (Gated Recurrent Unit). Finally, we use softmax to predict entity class labels. In the process of model construction, sparse data can be used as training set and LSTM and GRU neural network models can be compared to ensure that the present invention achieves satisfactory results in entity recognition tasks.

【技术实现步骤摘要】
一种基于特征融合的命名实体识别方法
本专利技术属于计算机领域,涉及一种基于特征融合的命名实体识别方法。
技术介绍
近年来,随着人工智能技术在自然语言处理(NaturalLanguageProcessing,NLP)领域的广泛应用,人们对领域知识的探索也越来越多。命名实体识别是构成领域知识的基础,也是至关重要的一个步骤,例如:知识图谱构建、文本检索、文本分类和信息抽取等领域中都需要进行命名实体识别。命名实体识别(NamedEntityRecognition,NER)可以看作是一个序列标注任务,通过提取出来的信息来查找实体并将其分为一组固定的类别。传统NER问题的两种主要方法是基于规则的学习方法和有监督的学习方法,其中有监督的学习方法占主导地位。基于规则学习的方法和有监督的学习方法都是假设可用的训练数据已全部标记(即,所有包含在文档中的实体都被标记)的前提下,在从文档中找到候选实体的标签序列。然而,在如今的大数据时代将充分标注的数据作为训练集是非常耗时耗力的,并且由于大多数领域术语的特殊性,如今的命名实体识别任务还存在以下挑战:(1)现实生活中大部分是半结构或非结构化的,并且很多信息是叙述性的,无结构信息,不适用于知识的发现和抽取;(2)领域实体本身结构复杂并且相同概念具有多种表达方法,例如在医疗领域:慢性阻塞性肺疾病可以缩写为COPD;(3)命名实体通常是由多个词组成,仅考虑词特征会使语义信息割裂。基于以上问题,传统的命名实体识别方法已经很难适用于如今的应用场景。目前,随着深度学习在各个领域中都优异的表现,在命名实体识别任务中的应用也越来越多,相比较传统方法,深度学习的方法效果更好。但是深度学习结合的NER方法大多都是基于英文的,或者基于词向量和字符向量的,而没有考虑到概念特征。2016年,发表在ACL,由GuillaumeLample等人所著论文“NeuralArchitecturesforNamedEntityRecognition”,提出了一种基于循环神经网络(RecurrentNeuralNetwork,RNN)和条件随机场(ConditionalRandomFields,CRF)结合的命名实体识别方法,用来识别英文人名、地名等,该方法通过RNN来提取词特征和字符特征,最后通过CRF对实体进行分类。2017年,发表在计算机研究与发展,由杨培等人所著论文“基于注意机制的化学药物命名实体识别”,提出了一种基于字词特征并结合注意力机制的实体识别方法,该方法通过神经网络LSTM(LongShort-TermMemory)来训练实体识别分类器,并采用CRF产生最后的实体标签分类结果。以上的方法虽然都可以完成命名实体识别任务,但是现有命名实体识别方法都是假设没有领域知识,特征只通过训练集来学习,然而现实生活中,大多数领域都是具有部分领域知识的,虽然还不完善,但是这些领域知识可以帮助我们在稀疏数据中更好的识别命名实体,同时也可以在一定程度上减少由表达不一致带来的巨大计算量。
技术实现思路
本专利技术的内容:一种基于特征融合的命名实体识别方法,该方法包括:①提出了一种基于特征融合的命名实体识别方法,该方法不仅可以根据领域本体中所包含的概念在稀疏标记的预料库中达到预测新词的效果,也可以对表达不一致但具有相同概念的实体采取统一的表达方式,不仅能够提高准确率也可以降低计算成本。②首先对预处理后的数据采用CBOW模型提取语义特征,语义特征包含概念特征和非概念词特征,对于概念特征提取概念、词和字符特征,对于非概念词特征就直接提取词特征和字符特征。③其次将提取出来的新的特征集进行特征融合,特征融合也包括两个部分,基于概念的特征融合和基于非概念词的特征融合。并通过计算概念相似度来降低概念特征的维度。④采用神经网络LSTM或GRU(GatedRecurrentUnit)模型时序记忆的特点来提取命名实体相关的上下文信息,并将新的特征集作为训练模型的输入。本专利技术的原理是一种基于特征融合的命名实体识别方法,不仅采用了传统的词向量特征和字符向量特征,也考虑了词所包含的概念特征和字符位置特征,通过概念特征不仅可以降低词向量维度,也可以根据本体中所包含的概念在稀疏标记的语料库中,一定程度上达到预测新词的效果,最后通过神经网络LSTM或GRU来关注上下文信息,从而能很好的提高命名实体识别的准确率。为达到以上专利技术目的,本专利技术采用如下的技术方案:一种基于特征融合的命名实体识别方法,包括:数据预处理模块、特征构建模块、训练命名实体网络模型模块、命名实体分类器模块。其中,特征构建模块主要针对不同粒度的文本特征进行提取和融合,具体包含四个子模块分别是语义特征提取模块、词特征提取模块、字符特征提取模块、特征融合模块。语义特征提取模块,语义特征包含两个部分,概念特征和非概念词特征,概念是指由多个包含语义的单独词汇组成的一个特殊的领域术语,例如,慢性阻塞性肺疾病;非概念词就是指一个单独的语义词汇,例如,困难。对于能够从领域本体里映射出概念的提取概念特征,不能提取概念的直接提取词特征,最后通过CBOW模型提取语义特征。词特征提取模块,由于概念是由多个词组成的,例如:慢性肺源性心脏病,因此概念的含义是由其包含的词决定的。为了保持语义信息的完整性,本方法分为两个方面考虑,基于概念提取词特征和基于非概念词提取词特征,其中非概念词特征的提取方法和语义特征提取方法一样采用CBOW模型。字符特征提取模块,字符是中文最小的语义单位,也包含一定的语义信息,词的意思是由其包含的字符决定的,并且,基于字符本身的语义信息还可以在一定程度上达到预测新词的效果,有助于实体类别的推断,例如:疼痛,疼的向量+痛的向量接近于痛苦一词的向量。同时,字符的位置信息也是非常关键的,相同字符不同位置可能使两个词的意思完全不同,因此为了提高实体识别的准确率,本方法不仅考虑字符特征也考虑字符位置特征。特征融合模块,首先,将提取出来的概念特征、词特征和字符特征融合为一个新的特征集。其次,提出了一种新的融合方法,该方法主要考虑两种情况,对于能够在领域本体中提取出概念的词就融合概念、词和字符特征,对于不能从本体中提取出概念的词就直接提取词特征并与字符特征相融合。最后,通过领域本体对提取出的概念特征进行特征降维,从而能够在提高命名实体识别准确率的基础上降低计算量,并将融合后的特征作为模型的输入进行训练。本专利技术提取了不同粒度的文本特征并提出一个新的特征融合方法,不仅能够充分的学习到文本中包含的语义信息,也可以解决领域术语的模糊性和由表达不一致性带来的巨大计算量。附图说明图1基于特征融合的命名实体识别方法整体架构图;图2基于特征融合的命名实体识别方法流程图;具体实施方式下面将详细描述本专利技术各个方面的特征和示例性实施例本专利技术提取不同粒度的特征提取和特征融合的方法来识别命名实体,希望提高命名实体识别的准确率并降低计算量。整体架构如图1所示,分为数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)和命名实体分类器模块(4)。具体方法流程图如图2所示。数据预处理模块(1):首先,在已标注的训练集中加入未标注的数据形成稀疏标记的语料库,并载入领域本体;其次,将所有稀疏标记的语料库根据特殊符号进行切分成本文档来自技高网
...

【技术保护点】
1.一种基于特征融合的命名实体识别方法,其特征包括以下四个模块:数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)、命名实体分类器模块(4);(1)数据预处理模块在已标注的训练集中加入未标注的数据形成稀疏标记的语料库,并载入领域本体;根据标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词;(2)特征构建模块该模块分为特征提取和特征融合,具体分为四个子模块:语义特征提取、词特征提取、字符特征提取和特征融合;(3)训练命名实体网络模型模块将融合后的特征作为模型的输入进行训练,由于命名实体识别也称为序列标注任务,需要提取上下文信息辅助推断实体类别,因此训练模型将采用具有时序记忆功能的神经网络模型LSTM或GRU;(4)命名实体分类器模块根据神经网络LSTM或GRU模型的softmax分类器来产生最后的实体标签分类结果。

【技术特征摘要】
1.一种基于特征融合的命名实体识别方法,其特征包括以下四个模块:数据预处理模块(1)、特征构建模块(2)、训练命名实体网络模型模块(3)、命名实体分类器模块(4);(1)数据预处理模块在已标注的训练集中加入未标注的数据形成稀疏标记的语料库,并载入领域本体;根据标点符号、数字和空格符将待处理的文本切分成汉字字符串,并去除停用词;(2)特征构建模块该模块分为特征提取和特征融合,具体分为四个子模块:语义特征提取、词特征提取、字符特征提取和特征融合;(3)训练命名实体网络模型模块将融合后的特征作为模型的输入进行训练,由于命名实体识别也称为序列标注任务,需要提取上下文信息辅助推断实体类别,因此训练模型将采用具有时序记忆功能的神经网络模型LSTM或GRU;(4)命名实体分类器模块根据神经网络LSTM或GRU模型的softmax分类器来产生最后的实体标签分类结果。2.根据权利要求1所述的一种基于特征融合的命名实体识别方法,其特征在于步骤(2),具体如下:语义特征提取(21):语义特征包含两个部分:概念特征和非概念词特征;其中,概念是指由多个包含语义的单独词汇组成的一个特殊的领域术语;非概念词就是指一个单独的语义词汇;对于能够从领域本体里映射出概念的提取概念特征,不能提取概念的直接提取词特征;首先将预处理后的语料映射到领域本体,通过最大匹配法将数据切分为语义集{Y1,...YN}∈D,其中包含概念集和非概念词集{G1,...GN}∪{F1,...FN}∈Y;其次采用CBOW模型来提取语义特征,CBOW的训练目标是将如下平均对数概率的最大化,公式为:其中,K为数据集D中目标词的上下文信息,Yi为数据集D中的语义;在CBOW中,概率Pr(Yi|Yi-K,...,Yi+K)是由如下公式算出的:其中,y0和yi为目标语义Yi输入和输出的向量表示,并且y0为所有上下文的平均向量表示,T是转秩,W为语义词典;词特征提取(22):词特征提取分为两种情况,基于概念的词特征提取和基于非概念的词特征提取;基于概念的词特征提取是在概念特征的基础上提取词特征,由于一个概念是由多个词组成的G={C1,...CN},因此概念的含义是由所包含的词决定的;基于概念的词特征提取的公式表示为:其中,gi为概念Gi的概念向量,cj为...

【专利技术属性】
技术研发人员:赵青王丹杜金莲付利华苏航
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1