一种多层次命名实体识别方法技术

技术编号：21605895 阅读：75 留言：0更新日期：2019-07-13 18:21

本发明专利技术提出一种多层次命名实体识别方法，包括：S1对数据文本进行预处理，得到词汇表C；S2利用预训练好的词向量，结合文本的字符特征信息序列，得到的文本的向量表示；S3对所述文本的向量表示进行编码，得到编码后的文本特征向量序列；S4把所述文本特征向量序列用CRF模型进行解码，标注出所述文本特征向量序列中的实体；S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列；S6将所述文本特征向量序列以及所述候选序列，输入到基于注意力机制的推理单元，计算得到注意力向量；S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中，标注出序列中的实体。

A Multi-level Named Entity Recognition Method

全部详细技术资料下载

【技术实现步骤摘要】
一种多层次命名实体识别方法
本专利技术涉及自然语言处理领域，具体涉及一种多层次命名实体识别方法。
技术介绍
自然语言处理作为计算机领域与人工智能领域的一个交叉方向，随着人工智能领域的快速发展而不断发展。命名实体识别(NamedEntityRecognition，简称NER)是自然语言处理的一个基本任务，它的目的是识别出文本中有特定意义的实体并对它们分类，这些实体的类型主要包括了人名、机构名、地点以及其他一些专有名词。伴随着互联网中海量大数据的产生，命名实体识别任务也在不断的受到学术界和工业界的重视，它已经被广泛运用在机器翻译、智能问答、信息检索等其它自然语言处理任务中。目前命名实体别的方法包括了基于规则的传统方法、基于词典的传统方法以及基于统计的传统方法，比较有代表性的方法就是基于统计的隐式马尔可夫模型(HMM)和条件随机场模型(CRF)，随着深度学习的热潮的到来，也涌现出许多基于神经网络的方法，比如利用长短时记忆网络(LSTM)进行命名实体识别，并且通过传统方法和神经网络的方法相结合的方式，取得了不错的成果。基于规则和词典的方法十分依赖于词典和规则的构造，所以它们只适合用于小规模的限定领域语料库中，对于大规模语料库就有点捉襟见肘，并且在处理新词汇时有很大局限性；基于统计的方法依赖人工特征提取，这将会耗费大量的人力和时间。目前很多基于神经网络的方法能够一定程度上解决传统方法的不足，但是对于文本中出现的生僻词，或者语义不清楚的词汇，这类方法的查全率和准确率仍然有待提升。
技术实现思路
鉴于以上所述现有技术的缺点，本专利技术的目的在于提供一种多层次命名实体识别方法...

【技术保护点】
1.一种多层次命名实体识别方法，其特征在于，该多层次命名实体识别方法包括以下步骤：S1对数据文本进行预处理，得到词汇表C；S2利用预训练好的词向量，结合文本的字符特征信息序列，得到的文本的向量表示；S3对所述文本的向量表示进行编码，得到编码后的文本特征向量序列；S4把所述文本特征向量序列用CRF模型进行解码，标注出所述文本特征向量序列中的实体；S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列；S6将所述文本特征向量序列以及所述候选序列，输入到基于注意力机制的推理单元，计算得到注意力向量；S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中，标注出序列中的实体；S8重复步骤S5～S7直至步骤S7没产生新实体。

【技术特征摘要】
1.一种多层次命名实体识别方法，其特征在于，该多层次命名实体识别方法包括以下步骤：S1对数据文本进行预处理，得到词汇表C；S2利用预训练好的词向量，结合文本的字符特征信息序列，得到的文本的向量表示；S3对所述文本的向量表示进行编码，得到编码后的文本特征向量序列；S4把所述文本特征向量序列用CRF模型进行解码，标注出所述文本特征向量序列中的实体；S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列；S6将所述文本特征向量序列以及所述候选序列，输入到基于注意力机制的推理单元，计算得到注意力向量；S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中，标注出序列中的实体；S8重复步骤S5～S7直至步骤S7没产生新实体。2.根据权利要求1所述的一种基于多层次命名实体识别方法，其特征在于，所述对数据文本进行预处理，得到文本的字符特征信息序列，具体包括：首先以句号为标志，把一段长文本分割为句子；对所有所述句子进行分词；然后去掉重复的词构建词汇表C。3.根据权利要求1所述的一种基于多层次命名实体识别方法，其特征在于，所述利用预训练好的词向量，结合文本的字符特征信息序列，得到的文本的向量表示，具体包括：对语料库进行预训练，经过预训练可以得到一份词向量；将输入的文本表示为one-hot的形式，作为字符特征信息序列；通过所述词汇表C、所述字符特征信息序列以及预训练的词向量，得到每个词组的词向量表示；对分词后的句子进行词嵌入，得到文本的向量表示X。4.根据权利要求3所述的一种基于多层次命名实体识别方法，其特征在于，采用BiLSTM对所述文本的向量表示进行编码，得到编码后的文本特征向量序列。5.根据权利要求4所述的一种基于多层次命名实体识别方法，其特征在于，把所述文本特征向量序列用CRF模型进行解码，标注出所述文本特征向量序列中的实体，具体包括：把文本特征向量序列H＝{h1,h2,h3,…,ht}输入至CRF模型，通过CRF模型的计算得到的预测标签序列L＝{l1,l2,l3,…,ln}，l表示的是每一个词的标签，标注结果中包含了“BIE”或者“S”的都是标注得到的实体e，实体集合表示为E＝(e1,e2,e3,…,em)，m表示实体数。6.根据权利要求5所述的一种基于多层次命名实体识别方法，其特征在于，所述预测标签序列通过以下方法计算获得：设标记序列为Y＝{y1,y2,y3,…,yn}，序列Y表示BIOES标注体系中所有可能的标记的集合，x标记上标签y这一结果的得分函数为：其中，tj(yi-1,yi,x,i)代表CRF模型中的特征函数，表示在给定x的情况下...

【专利技术属性】
技术研发人员：常亮，王文凯，宾辰忠，宣闻，秦赛歌，陈源鹏，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人