【技术实现步骤摘要】
一种结合属性信息的实体多分类方法
本专利技术涉及实体多分类技术,尤其涉及一种结合属性信息的实体多分类方法。
技术介绍
实体分类任务的目的是对一个实体结合其上下文信息赋予合适的类别标签。在实体多分类任务中,实体的类别标签仅有一个,通过分类模型预测类别标签概率,将概率最大的标签作为实体的类别。而实体的类别信息能够增强文本中实体的背景信息,有助于许多自然语言处理任务,如问答和阅读理解、知识库构建、实体链接和关系抽取等。传统的实体多分类方法使用手工特征,依赖于专家知识而有一定局限。此外多数实体多分类方法判断实体的类别时仅考虑上下文信息,却忽视了有些句子信息并不充分。本专利技术提出了结合属性信息表示实体的深度学习模型,以便充分利用知识库中实体属性信息提供的丰富背景知识。同时考虑测试数据中实体属性信息可能缺失,本专利技术提出的模型通过联合训练属性和实体表示,从而避免预测阶段需要属性信息。此外,模型中还应用了字符级别信息表示实体的形态学和词形特征,并使用实体感知的注意力机制表示上下文特征。
技术实现思路
本专利技术利用实体的文本信息以及知识库中属性列表信息,克服了现有方法忽视知识库信息以及实体上下文信息不充分的缺陷,提高实体多分类的效果,提供一种结合属性信息的实体多分类方法。本专利技术解决其技术问题采用的技术方案如下:一种结合属性信息的实体多分类方法,包括以下步骤:(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征;(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结 ...
【技术保护点】
1.一种结合属性信息的实体多分类方法,其特征在于,包括以下步骤:(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征;(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结合实体字符级别特征和实体词汇级别最终特征得到实体最终特征;(3)使用实体感知的注意力机制得到上下文最终特征;(4)使用Max‑pooling方式表示实体的属性特征,并联合实体词汇级别的更新特征构建实体‑属性的cosine相似度损失函数;(5)融合步骤(2)得到的实体最终特征和步骤(3)得到的上下文最终特征实现实体多分类,并构建交叉熵损失函数,最后联合步骤(4)得到的实体‑属性损失函数进行优化训练。
【技术特征摘要】
1.一种结合属性信息的实体多分类方法,其特征在于,包括以下步骤:(1)使用循环神经网络表示实体字符级别特征,使用平均编码器表示实体词汇级别初步特征;(2)使用双向LSTM表示上下文初步特征,并结合上下文初步特征和实体词汇级别初步特征得到实体词汇级别的更新特征和最终特征,然后结合实体字符级别特征和实体词汇级别最终特征得到实体最终特征;(3)使用实体感知的注意力机制得到上下文最终特征;(4)使用Max-pooling方式表示实体的属性特征,并联合实体词汇级别的更新特征构建实体-属性的cosine相似度损失函数;(5)融合步骤(2)得到的实体最终特征和步骤(3)得到的上下文最终特征实现实体多分类,并构建交叉熵损失函数,最后联合步骤(4)得到的实体-属性损失函数进行优化训练。2.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(1)包括以下子步骤:1.1)对语料中所有字符c建立字符表Vc,使用随机初始化表示字符对应的向量,字符向量维度为dc,字符向量的映射函数uc表示为1.2)使用循环神经网络RNN表示实体字符级别特征。设实体的字符序列表示echar=[c1,c2,...,cm],则字符级别特征为:hi=f(Wcuc(ci)+Uchi-1)ec=tanh(hm)其中:ci、uc(ci)和hi分别表示i时刻的输入字符、字符的向量表示和隐层状态向量,m为实体的字符序列长度,Wc、Uc为RNN的权重矩阵,并将RNN最后一次输出的向量作为最终实体字符级别特征1.3)设语料中所有词汇组成的词表为Vw,词向量维度为dw,词向量的映射函数u表示为设实体的词序列表示emention=[e1,e2,...,en],则词汇级别初步特征利用平均编码器表示如下:其中:u(ei)表示第i个词汇的向量表示,n为实体的词汇序列长度。实体词汇级别初步特征3.根据权利要求1所述的结合属性信息的实体多分类方法,其特征在于,所述步骤(2)包括以下子步骤:2.1)使用双向LSTM表示上下文初步特征,其中LSTM可以表示为:it=σ(Wi[ht-1;xt]+bi)ft=σ(Wf[ht-1;xt]+bf)ot=σ(Wo[ht-1;xt]+bo)ht=ot⊙tanh(ct)其中:xt表示t时刻输入向量,ht-1,ht分别是上一时刻和当前时刻的隐层状态向量,ct-1,ct分别是上一时刻和当前时刻的cell状态向量,是当前时刻cell的更新状态向量,Wr,br是的参数,Wi,bi是输入门it的参数,Wf,bf是遗忘门ft的参数,Wo,bo是输出门ot的参数。σ表示sigmoid函数,⊙表示对应元素之间逐对相乘,[ht-1;xt]表示ht-1和xt进行向量拼接。2.2)对于长度为C的左上下文contextleft=[lc,lc-1,...,l2,l1],应用双向LSTM得到编码序列为其中每个输出由正向和反向序列LSTM隐层状态向量组成2.3)对于长度为C的右上下文contextr...
【专利技术属性】
技术研发人员:鲁伟明,陆海蛟,吴飞,庄越挺,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。