一种多层次命名实体识别方法技术

技术编号:21605895 阅读:75 留言:0更新日期:2019-07-13 18:21
本发明专利技术提出一种多层次命名实体识别方法,包括:S1对数据文本进行预处理,得到词汇表C;S2利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示;S3对所述文本的向量表示进行编码,得到编码后的文本特征向量序列;S4把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体;S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列;S6将所述文本特征向量序列以及所述候选序列,输入到基于注意力机制的推理单元,计算得到注意力向量;S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中,标注出序列中的实体。

A Multi-level Named Entity Recognition Method

【技术实现步骤摘要】
一种多层次命名实体识别方法
本专利技术涉及自然语言处理领域,具体涉及一种多层次命名实体识别方法。
技术介绍
自然语言处理作为计算机领域与人工智能领域的一个交叉方向,随着人工智能领域的快速发展而不断发展。命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理的一个基本任务,它的目的是识别出文本中有特定意义的实体并对它们分类,这些实体的类型主要包括了人名、机构名、地点以及其他一些专有名词。伴随着互联网中海量大数据的产生,命名实体识别任务也在不断的受到学术界和工业界的重视,它已经被广泛运用在机器翻译、智能问答、信息检索等其它自然语言处理任务中。目前命名实体别的方法包括了基于规则的传统方法、基于词典的传统方法以及基于统计的传统方法,比较有代表性的方法就是基于统计的隐式马尔可夫模型(HMM)和条件随机场模型(CRF),随着深度学习的热潮的到来,也涌现出许多基于神经网络的方法,比如利用长短时记忆网络(LSTM)进行命名实体识别,并且通过传统方法和神经网络的方法相结合的方式,取得了不错的成果。基于规则和词典的方法十分依赖于词典和规则的构造,所以它们只适合用于小规模的限定领域语料库中,对于大规模语料库就有点捉襟见肘,并且在处理新词汇时有很大局限性;基于统计的方法依赖人工特征提取,这将会耗费大量的人力和时间。目前很多基于神经网络的方法能够一定程度上解决传统方法的不足,但是对于文本中出现的生僻词,或者语义不清楚的词汇,这类方法的查全率和准确率仍然有待提升。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种多层次命名实体识别方法,本专利技术通过利用推理单元和存储单元进行多次识别的方式,有效解决了实际应用命名实体识别中对于生僻词,语义不清楚的词汇准确率不高的问题,提高了文本信息的查全率和准确率。为实现上述目的及其他相关目的,本专利技术提供一种多层次命名实体识别方法,包括以下步骤:S1对数据文本进行预处理,得到词汇表C;S2利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示;S3对所述文本的向量表示进行编码,得到编码后的文本特征向量序列;S4把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体;S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列;S6将所述文本特征向量序列以及所述候选序列,输入到基于注意力机制的推理单元,计算得到注意力向量;S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中,标注出序列中的实体。S8重复步骤S5~S7直至步骤S7没产生新实体。可选地,所述对数据文本进行预处理,得到文本的字符特征信息序列,具体包括:首先以句号为标志,把一段长文本分割为句子;对所有所述句子进行分词;然后去掉重复的词构建词汇表C。可选地,所述利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示,具体包括:对语料库进行预训练,经过预训练可以得到一份词向量;将输入的文本表示为one-hot的形式,作为字符特征信息序列;通过所述词汇表C、所述字符特征信息序列以及预训练的词向量,得到每个词组的词向量表示;对分词后的句子进行词嵌入,得到文本的向量表示X。可选地,采用BiLSTM对所述文本的向量表示进行编码,得到编码后的文本特征向量序列。可选地,把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体,具体包括:把文本特征向量序列H={h1,h2,h3,…,ht}输入至CRF模型,通过CRF模型的计算得到的预测标签序列L={l1,l2,l3,…,ln},l表示的是每一个词的标签,标注结果中包含了“BIE”或者“S”的都是标注得到的实体e,实体集合表示为E=(e1,e2,e3,…,em),m表示实体数。可选地,所述预测标签序列通过以下方法计算获得:设标记序列为Y={y1,y2,y3,…,yn},序列Y表示BIOES标注体系中所有可能的标记的集合,x标记上标签y这一结果的得分函数为:其中,tj(yi-1,yi,x,i)代表CRF模型中的特征函数,表示在给定x的情况下,上一个标签结点yi-1转移到当前标签结点yi的情况,取值为0或1,称为转移特征,sk(yi,x,i)表示当前标签结点yi是否标记在x上,取值也为0或1,称为状态特征,λj以及μk分别表示的tj和sk的权值,j,k表示特征函数的个数;对score(y,x)进行指数化和标准化,就能够得到为x打上y标签的条件概率p(y|x),计算p(y|x)具体公式如下:Z(x)为规范化因子,计算公式为:其中y′=(y′1,y′2,y′3,…,y′n),表示可能的标注序列;通过维特比算法进行求解,模型取使得概率最大的y′为作为标注结果,记为l,即则预测标签序列为L={l1,l2,l3,…,ln}。可选地,对于实体集合E中的每个实体ei(i=1,2,3,…,m),结合前向LSTM隐含层输出以及后向LSTM隐含层输出把每个实体表示为V′=[v1,v2,v3,v4]的形式,其中,v1表示的是实体的上文信息,v2表示的是前向LSTM得到的实体本身信息,v3表示的是后向LSTM得到的实体本身信息,v4实体的后文信息,则存储单元中的实体序列表示为V={V′1,V′2,V′3,…,V′m′},m′表示已经存入到存储单元的实体数,则存储单元中的实体序列表示为候选序列。可选地,把存储单元中的候选序列V和文本特征向量序列H输入到推理单元中,通过推理单元得出每个实体信息V对文本特征向量序列H的影响程度,得到注意力向量S;对于文本特征向量序列H={h1,h2,h3,…,ht}和候选序列V={V′1,V′2,V′3,…,V′m′},分别计算每个时刻的hi与所有V′j(j=1,2,3,…,m′)的点积,得到注意力分数σ,其中i=1,2,3,...,t;任意时刻t,候选序列V对ht的注意力分数的计算公式如下:利用softmax函数把注意力分数转化为概率分布作为后序加权求和的权重α:αt=softmax(σt)对候选序列V进行加权求和,得到任意时刻t,候选序列V对ht注意力向量s,公式如下:计算所有时刻的结果之后,得到候选序列V对文本特征向量序列H的注意力向量序列S={s1,s2,s3,…,st}。可选地,该方法还包括:计算所述步骤S7中的实体与步骤S5中的实体的相似度,当所述相似度小于相似度阈值时,把该实体作为新的实体。可选地,所述相似度采用余弦相似度的方法计算,具体公式为:如上所述,本专利技术的一种多层次命名实体识别方法,具有以下有益效果:1、相比于只进行一次命名实体识别的方法,本方法使用多次识别,通过多次识别的方式提高了命名实体识别任务的查全率;2、现有方法比较适合短文本数据,对于较长的长文本数据,效率就会下降,本专利技术设计了存储单元,存储重要的实体信息以及它的上下文信息,通过这种方式处理长文本数据,同时设计了候选单元减小存储单元的空间开销;3、设计了推理单元,结合推理单元进行实体识别,对于文本中的一些生僻词,以及一些语义不清的词,识别的效果能够提升,提高系统的准确率和查全率。附图说明为了进一步阐述本专利技术所描述的内容,下面结合附图对本专利技术的具体实施方式作进一步详细的说本文档来自技高网...

【技术保护点】
1.一种多层次命名实体识别方法,其特征在于,该多层次命名实体识别方法包括以下步骤:S1对数据文本进行预处理,得到词汇表C;S2利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示;S3对所述文本的向量表示进行编码,得到编码后的文本特征向量序列;S4把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体;S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列;S6将所述文本特征向量序列以及所述候选序列,输入到基于注意力机制的推理单元,计算得到注意力向量;S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中,标注出序列中的实体;S8重复步骤S5~S7直至步骤S7没产生新实体。

【技术特征摘要】
1.一种多层次命名实体识别方法,其特征在于,该多层次命名实体识别方法包括以下步骤:S1对数据文本进行预处理,得到词汇表C;S2利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示;S3对所述文本的向量表示进行编码,得到编码后的文本特征向量序列;S4把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体;S5把标记处的实体的前文信息、后文信息以及该实体的信息作为后续的识别过程的候选序列;S6将所述文本特征向量序列以及所述候选序列,输入到基于注意力机制的推理单元,计算得到注意力向量;S7把所述注意力向量和所述文本特征向量序列输入到CRF模型中,标注出序列中的实体;S8重复步骤S5~S7直至步骤S7没产生新实体。2.根据权利要求1所述的一种基于多层次命名实体识别方法,其特征在于,所述对数据文本进行预处理,得到文本的字符特征信息序列,具体包括:首先以句号为标志,把一段长文本分割为句子;对所有所述句子进行分词;然后去掉重复的词构建词汇表C。3.根据权利要求1所述的一种基于多层次命名实体识别方法,其特征在于,所述利用预训练好的词向量,结合文本的字符特征信息序列,得到的文本的向量表示,具体包括:对语料库进行预训练,经过预训练可以得到一份词向量;将输入的文本表示为one-hot的形式,作为字符特征信息序列;通过所述词汇表C、所述字符特征信息序列以及预训练的词向量,得到每个词组的词向量表示;对分词后的句子进行词嵌入,得到文本的向量表示X。4.根据权利要求3所述的一种基于多层次命名实体识别方法,其特征在于,采用BiLSTM对所述文本的向量表示进行编码,得到编码后的文本特征向量序列。5.根据权利要求4所述的一种基于多层次命名实体识别方法,其特征在于,把所述文本特征向量序列用CRF模型进行解码,标注出所述文本特征向量序列中的实体,具体包括:把文本特征向量序列H={h1,h2,h3,…,ht}输入至CRF模型,通过CRF模型的计算得到的预测标签序列L={l1,l2,l3,…,ln},l表示的是每一个词的标签,标注结果中包含了“BIE”或者“S”的都是标注得到的实体e,实体集合表示为E=(e1,e2,e3,…,em),m表示实体数。6.根据权利要求5所述的一种基于多层次命名实体识别方法,其特征在于,所述预测标签序列通过以下方法计算获得:设标记序列为Y={y1,y2,y3,…,yn},序列Y表示BIOES标注体系中所有可能的标记的集合,x标记上标签y这一结果的得分函数为:其中,tj(yi-1,yi,x,i)代表CRF模型中的特征函数,表示在给定x的情况下...

【专利技术属性】
技术研发人员:常亮王文凯宾辰忠宣闻秦赛歌陈源鹏
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1