【技术实现步骤摘要】
一种多层次命名实体识别方法
本专利技术涉及自然语言处理领域,具体涉及一种多层次命名实体识别方法。
技术介绍
自然语言处理作为计算机领域与人工智能领域的一个交叉方向,随着人工智能领域的快速发展而不断发展。命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理的一个基本任务,它的目的是识别出文本中有特定意义的实体并对它们分类,这些实体的类型主要包括了人名、机构名、地点以及其他一些专有名词。伴随着互联网中海量大数据的产生,命名实体识别任务也在不断的受到学术界和工业界的重视,它已经被广泛运用在机器翻译、智能问答、信息检索等其它自然语言处理任务中。目前命名实体别的方法包括了基于规则的传统方法、基于词典的传统方法以及基于统计的传统方法,比较有代表性的方法就是基于统计的隐式马尔可夫模型(HMM)和条件随机场模型(CRF),随着深度学习的热潮的到来,也涌现出许多基于神经网络的方法,比如利用长短时记忆网络(LSTM)进行命名实体识别,并且通过传统方法和神经网络的方法相结合的方式,取得了不错的成果。基于规则和词典的方法十分依赖于词典和规则的构造,所以它们只适合用于小规模的限定领域语料库中,对于大规模语料库就有点捉襟见肘,并且在处理新词汇时有很大局限性;基于统计的方法依赖人工特征提取,这将会耗费大量的人力和时间。目前很多基于神经网络的方法能够一定程度上解决传统方法的不足,但是对于文本中出现的生僻词,或者语义不清楚的词汇,这类方法的查全率和准确率仍然有待提升。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种多层次命名实体识别方法 ...
【技术保护点】
1.一种多层次命名实体识别方法,其特征在于,该多层次命名实体识别方法包括以下步骤:S1对数据文本进行预处理,得到词汇表C;S2利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示;S3对所述文本的向量表示进行编码,得到编码后的文本特征向量序列;S4把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体;S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列;S6将所述文本特征向量序列以及所述候选序列,输入到基于注意力机制的推理单元,计算得到注意力向量;S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中,标注出序列中的实体;S8重复步骤S5~S7直至步骤S7没产生新实体。
【技术特征摘要】
1.一种多层次命名实体识别方法,其特征在于,该多层次命名实体识别方法包括以下步骤:S1对数据文本进行预处理,得到词汇表C;S2利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示;S3对所述文本的向量表示进行编码,得到编码后的文本特征向量序列;S4把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体;S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列;S6将所述文本特征向量序列以及所述候选序列,输入到基于注意力机制的推理单元,计算得到注意力向量;S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中,标注出序列中的实体;S8重复步骤S5~S7直至步骤S7没产生新实体。2.根据权利要求1所述的一种基于多层次命名实体识别方法,其特征在于,所述对数据文本进行预处理,得到文本的字符特征信息序列,具体包括:首先以句号为标志,把一段长文本分割为句子;对所有所述句子进行分词;然后去掉重复的词构建词汇表C。3.根据权利要求1所述的一种基于多层次命名实体识别方法,其特征在于,所述利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示,具体包括:对语料库进行预训练,经过预训练可以得到一份词向量;将输入的文本表示为one-hot的形式,作为字符特征信息序列;通过所述词汇表C、所述字符特征信息序列以及预训练的词向量,得到每个词组的词向量表示;对分词后的句子进行词嵌入,得到文本的向量表示X。4.根据权利要求3所述的一种基于多层次命名实体识别方法,其特征在于,采用BiLSTM对所述文本的向量表示进行编码,得到编码后的文本特征向量序列。5.根据权利要求4所述的一种基于多层次命名实体识别方法,其特征在于,把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体,具体包括:把文本特征向量序列H={h1,h2,h3,…,ht}输入至CRF模型,通过CRF模型的计算得到的预测标签序列L={l1,l2,l3,…,ln},l表示的是每一个词的标签,标注结果中包含了“BIE”或者“S”的都是标注得到的实体e,实体集合表示为E=(e1,e2,e3,…,em),m表示实体数。6.根据权利要求5所述的一种基于多层次命名实体识别方法,其特征在于,所述预测标签序列通过以下方法计算获得:设标记序列为Y={y1,y2,y3,…,yn},序列Y表示BIOES标注体系中所有可能的标记的集合,x标记上标签y这一结果的得分函数为:其中,tj(yi-1,yi,x,i)代表CRF模型中的特征函数,表示在给定x的情况下...
【专利技术属性】
技术研发人员:常亮,王文凯,宾辰忠,宣闻,秦赛歌,陈源鹏,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。