当前位置: 首页 > 专利查询>浙江大学专利>正文

一种结合属性信息的实体多分类方法技术

技术编号:21433388 阅读:33 留言:0更新日期:2019-06-22 12:16
本发明专利技术公开了一种结合属性信息的实体多分类方法。实体分类任务的目的是对一个实体结合其上下文信息赋予合适的类别标签。在实体多分类任务中,实体的类别标签仅有一个,通过分类模型预测类别标签概率,将概率最大的标签作为实体的类别。本发明专利技术基于传统的实体分类方法,结合知识库实体的属性信息,利用深度学习方法分别对实体、属性以及上下文进行特征表示,其中实体表示包括词汇和字符级别两种特征,上下文特征表示引入了实体感知的注意力机制。此外,通过实体和属性特征的联合训练,避免预测阶段需要引入属性信息。最后,综合利用实体和上下文特征实现实体多分类。本方法通过引入属性信息作为额外特征,提高的实体多分类的效果。

【技术实现步骤摘要】
一种结合属性信息的实体多分类方法
本专利技术涉及实体多分类技术,尤其涉及一种结合属性信息的实体多分类方法。
技术介绍
实体分类任务的目的是对一个实体结合其上下文信息赋予合适的类别标签。在实体多分类任务中,实体的类别标签仅有一个,通过分类模型预测类别标签概率,将概率最大的标签作为实体的类别。而实体的类别信息能够增强文本中实体的背景信息,有助于许多自然语言处理任务,如问答和阅读理解、知识库构建、实体链接和关系抽取等。传统的实体多分类方法使用手工特征,依赖于专家知识而有一定局限。此外多数实体多分类方法判断实体的类别时仅考虑上下文信息,却忽视了有些句子信息并不充分。本专利技术提出了结合属性信息表示实体的深度学习模型,以便充分利用知识库中实体属性信息提供的丰富背景知识。同时考虑测试数据中实体属性信息可能缺失,本专利技术提出的模型通过联合训练属性和实体表示,从而避免预测阶段需要属性信息。此外,模型中还应用了字符级别信息表示实体的形态学和词形特征,并使用实体感知的注意力机制表示上下文特征。
技术实现思路
本专利技术利用实体的文本信息以及知识库中属性列表信息,克服了现有方法忽视知识库信息以及实体上下文信息不充分的缺陷,提高实体多分类的效果,提供一种结合属性信息的实体多分类方法。本专利技术解决其技术问题采用的技术方案如下:一种结合属性信息的实体多分类方法,包括以下步骤:(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征;(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结合实体字符级别特征和实体词汇级别最终特征得到实体最终特征;(3)使用实体感知的注意力机制得到上下文最终特征;(4)使用Max-pooling方式表示实体的属性特征,并联合实体词汇级别的更新特征构建实体-属性的cosine相似度损失函数;(5)融合步骤(2)得到的实体最终特征和步骤(3)得到的上下文最终特征实现实体多分类,并构建交叉熵损失函数,最后联合步骤(4)得到的实体-属性损失函数进行优化训练。进一步地,所述步骤(1)包括:1.1)对语料中所有字符c建立字符表Vc,使用随机初始化表示字符对应的向量,字符向量维度为dc,字符向量的映射函数uc表示为1.2)使用循环神经网络(RecurrentNeuralNetwork,RNN)表示实体字符级别特征。设实体的字符序列表示echar=[c1,c2,…,cm],则字符级别特征为:hi=f(Wcuc(ci)+Uchi-1)ec=tanh(hm)其中:ci、uc(ci)和hi分别表示i时刻的输入字符、字符的向量表示和隐层状态向量,m为实体的字符序列长度,Wc、Uc为RNN的权重矩阵,并将RNN最后一次输出的向量作为最终实体字符级别特征1.3)设语料中所有词汇(包括属性的词汇)组成的词表为Vw,词向量维度为dw,词向量的映射函数u表示为设实体的词序列表示emention=[e1,e2,…,en],则词汇级别初步特征利用平均编码器表示如下:其中:u(ei)表示第i个词汇的向量表示,n为实体的词汇序列长度。实体词汇级别初步特征进一步地,所述步骤(2)包括:2.1)使用双向LSTM(LongShort-TermMemory,长短时记忆网络)表示上下文初步特征,其中LSTM可以表示为:it=σ(Wi[ht-1;xt]+bi)ft=σ(Wf[ht-1;xt]+bf)ot=σ(Wo[ht-1;xt]+bo)ht=ot⊙tanh(ct)其中:xt表示t时刻输入向量,ht-1,ht分别是上一时刻和当前时刻的隐层状态向量,ct-1,ct分别是上一时刻和当前时刻的cell状态向量,是当前时刻cell的更新状态向量,Wr,br是的参数,Wi,bi是输入门it的参数,Wf,bf是遗忘门ft的参数,Wo,bo是输出门ot的参数。σ表示sigmoid函数,⊙表示对应元素之间逐对相乘,[ht-1;xt]表示ht-1和xt进行向量拼接。2.2)对于长度为C的左上下文contextleft=[lC,lC1,…,l2,l1],应用双向LSTM得到编码序列为其中每个输出由正向和反向序列LSTM隐层状态向量组成2.3)对于长度为C的右上下文contextright=[r1,r2,…,rC],应用双向LSTM得到编码序列为其中每个输出由正向和反向序列LSTM隐层状态向量组成2.4)结合上下文初步特征和实体词汇级别初步特征,实体词汇级别更新特征和最终特征分别表示为:其中:和分别是左右上下文信息经过双向LSTM网络的最后一个输出状态,We、vT均为训练的参数。2.5)结合实体字符级别特征ec和实体词汇级别最终特征实体最终特征e表示为进一步地,所述步骤(3)中,应用实体感知的注意力机制,将实体信息作为上下文权重计算的输入之一,最终对所有的输出进行加权表示,得到上下文最终特征,具体为:3.1)经双向LSTM得到左上下文编码序列应用实体感知的注意模型,可表示为:其中:是左上下文编码序列第i个特征表示,和是参数矩阵。3.2)经双向LSTM得到右上下文编码序列应用实体感知的注意力模型可表示为:其中:是右上下文编码序列第i个特征表示,和是参数矩阵。3.3)结合左上下文最终特征cleft和右上下文最终特征cright,上下文最终特征c表示为c=cleft;cright]。进一步地,所述步骤(4)包括:4.1)属性分词:实体的属性是知识库中实体属性键值对列表中的键名,因此实体属性列表表示为A(a1,a2,…,ar),其中每个属性通过中文分词后可以得到多个细粒度词汇,则第i个属性的词汇序列可表示为序列长度是ni。4.2)对每个属性使用平均编码器得到属性的向量表示:其中:u(aij)为第i个属性的第j个词汇的向量表示。4.3)使用max-pooling方式对所有属性的向量表示进行处理,即对所有输入向量同一维度取最大值,得到实体的属性特征a:a=maxpooling([a1,a2,…,ar])4.4)联合实体词汇级别更新特征和实体的属性特征a,构建实体-属性的cosine相似度损失函数Ja(θ),表示如下:通过联合训练实体和属性特征表示,可以消除预测阶段需要引入实体的属性信息。进一步地,所述步骤(5)包括:5.1)拼接实体最终特征e和上下文最终特征c得到实体多分类模型最终特征x=e;c],通过全连接网络后并应用softmax分类器预测每个类别的概率值,最终得到实体的类别概率分布向量其中:Wy是全连接层的参数,用于学习分类特征。5.2)使用交叉熵作为实体多分类的损失函数Jce(θ):对于有N个类别的多分类问题,t表示真实标签,满足t是一个0-1表示的二元向量,其中正确类别对应的维度值为1,其余维度0;下标i表示维度序号。5.3)通过实体-属性的cosine相似度损失函数Ja(θ)和交叉熵损失函数Jce(θ),得到联合的损失函数J(θ)为其中:λa是属性信息训练的损失函数权重;使用梯度下降法对损失函数J(θ)进行优化训练。本专利技术所提出的方法与现有的实体多分类方法相比,具有以下优势:1.使用属性信息增强实体表示,并通过实体和属性特征联合训练避免了预测阶段需要属性信息。2.摒弃手工特征,仅利用本文档来自技高网...

【技术保护点】
1.一种结合属性信息的实体多分类方法,其特征在于,包括以下步骤:(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征;(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结合实体字符级别特征和实体词汇级别最终特征得到实体最终特征;(3)使用实体感知的注意力机制得到上下文最终特征;(4)使用Max‑pooling方式表示实体的属性特征,并联合实体词汇级别的更新特征构建实体‑属性的cosine相似度损失函数;(5)融合步骤(2)得到的实体最终特征和步骤(3)得到的上下文最终特征实现实体多分类,并构建交叉熵损失函数,最后联合步骤(4)得到的实体‑属性损失函数进行优化训练。

【技术特征摘要】
1.一种结合属性信息的实体多分类方法,其特征在于,包括以下步骤:(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征;(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结合实体字符级别特征和实体词汇级别最终特征得到实体最终特征;(3)使用实体感知的注意力机制得到上下文最终特征;(4)使用Max-pooling方式表示实体的属性特征,并联合实体词汇级别的更新特征构建实体-属性的cosine相似度损失函数;(5)融合步骤(2)得到的实体最终特征和步骤(3)得到的上下文最终特征实现实体多分类,并构建交叉熵损失函数,最后联合步骤(4)得到的实体-属性损失函数进行优化训练。2.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(1)包括以下子步骤:1.1)对语料中所有字符c建立字符表Vc,使用随机初始化表示字符对应的向量,字符向量维度为dc,字符向量的映射函数uc表示为1.2)使用循环神经网络RNN表示实体字符级别特征。设实体的字符序列表示echar=[c1,c2,...,cm],则字符级别特征为:hi=f(Wcuc(ci)+Uchi-1)ec=tanh(hm)其中:ci、uc(ci)和hi分别表示i时刻的输入字符、字符的向量表示和隐层状态向量,m为实体的字符序列长度,Wc、Uc为RNN的权重矩阵,并将RNN最后一次输出的向量作为最终实体字符级别特征1.3)设语料中所有词汇组成的词表为Vw,词向量维度为dw,词向量的映射函数u表示为设实体的词序列表示emention=[e1,e2,...,en],则词汇级别初步特征利用平均编码器表示如下:其中:u(ei)表示第i个词汇的向量表示,n为实体的词汇序列长度。实体词汇级别初步特征3.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(2)包括以下子步骤:2.1)使用双向LSTM表示上下文初步特征,其中LSTM可以表示为:it=σ(Wi[ht-1;xt]+bi)ft=σ(Wf[ht-1;xt]+bf)ot=σ(Wo[ht-1;xt]+bo)ht=ot⊙tanh(ct)其中:xt表示t时刻输入向量,ht-1,ht分别是上一时刻和当前时刻的隐层状态向量,ct-1,ct分别是上一时刻和当前时刻的cell状态向量,是当前时刻cell的更新状态向量,Wr,br是的参数,Wi,bi是输入门it的参数,Wf,bf是遗忘门ft的参数,Wo,bo是输出门ot的参数。σ表示sigmoid函数,⊙表示对应元素之间逐对相乘,[ht-1;xt]表示ht-1和xt进行向量拼接。2.2)对于长度为C的左上下文contextleft=[lc,lc-1,...,l2,l1],应用双向LSTM得到编码序列为其中每个输出由正向和反向序列LSTM隐层状态向量组成2.3)对于长度为C的右上下文contextr...

【专利技术属性】
技术研发人员:鲁伟明陆海蛟吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1