当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于深度学习话题信息增强的文本文档表示方法和装置制造方法及图纸

技术编号:20160588 阅读:46 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种基于深度学习话题信息增强的文本文档表示方法和装置。方法包括:S1、对文本形式的语料文档进行数据预处理操作。S2、设计文本序列层,将文档中每个词的表示向量中嵌入它在词序中的上下文信息。S3、通过注意力层将序列元素过渡到更高层次的话题信息中。S4、在话题层中,生成当前文档D在所有话题方向上的表示。S5、对所有话题信息之间的相似程度进行限制。S6、在表示层将话题表示向量融合为文档D的语义表示向量Rep。S7、通过分类器和目标函数对将Rep的参数进行更新,该方法能够高效地将文本序列上下文语义信息和潜在话题信息嵌入到文档表示向量中,并且这些经过话题信息增强的表示向量能显著提高使用它们的文本挖掘模型的性能。

【技术实现步骤摘要】
一种基于深度学习话题信息增强的文本文档表示方法和装置
本专利技术涉及计算机文本表示学习领域,特别涉及一种基于深度学习增强话题信息增强的文本文档表示方法和一种基于深度学习增强话题信息增强的文本文档表示装置。
技术介绍
对文本进行文档级别的、整体性地把握是很多文本处理任务的重要需求。当前,这一问题一般通过文本表示学习来解决。文本文档级别表示学习任务主要致力于构建一种将文本文档依据其内在语义信息转化为可以直接为计算机运算的表示向量的方法。具体来说,就是将文本形式的文档表示为蕴含其语义的固定长度的实数型向量。如今,文档表示学习在自然语言处理、文本挖掘和信息抽取等领域已经成为基础性、广泛性的应用。当前最广为应用的文档表示学习方法大致有三大类,它们各有各的不足之处:(1)基于“词袋”(BoW)模型的,也被称为“向量空间模型”。这类模型生成的表示向量是稀疏的、非实数的,这类向量在之后的应用中往往效果不佳;(2)基于语义分析的方法,例如“概率潜在语义分析”模型、“LDA文档主题生成模型”,这类模型忽略了文本中词序的上下文信息,这制约了表示向量的语义携带能力;(3)基于循环神经网络的长短期记忆模型(L本文档来自技高网...

【技术保护点】
1.一种基于深度学习话题信息增强的文本文档表示方法,其特征在于,包括以下步骤:S1,对含有K个话题的某篇语料中由n个词构成的文档D={w1,w2,...,wn}进行清理、抽取、转化和整理的数据预处理操作,获取文档的词向量矩阵D={x1,x2,...,xn};S2,利用词语间的序列关系构建文本序列层,设计序列形式长短期记忆模型,获取文档的潜在语义矩阵Hs={h1,h2,...,hn},其中,hi=f1(xi,hi‑1),h0=f1(x0),f1为神经网络节点操作;S3,由所述潜在语义矩阵Hs={h1,h2,...,hn}生成对应的注意力强度矩阵A={a1,a2,...,an},并将A矩阵转置后按...

【技术特征摘要】
1.一种基于深度学习话题信息增强的文本文档表示方法,其特征在于,包括以下步骤:S1,对含有K个话题的某篇语料中由n个词构成的文档D={w1,w2,...,wn}进行清理、抽取、转化和整理的数据预处理操作,获取文档的词向量矩阵D={x1,x2,...,xn};S2,利用词语间的序列关系构建文本序列层,设计序列形式长短期记忆模型,获取文档的潜在语义矩阵Hs={h1,h2,...,hn},其中,hi=f1(xi,hi-1),h0=f1(x0),f1为神经网络节点操作;S3,由所述潜在语义矩阵Hs={h1,h2,...,hn}生成对应的注意力强度矩阵A={a1,a2,...,an},并将A矩阵转置后按行归一化得到注意力权重矩阵A*,其中ai=f2(hi),f2是转化函数;S4,将所述潜在语义矩阵Hs和所述注意力权重矩阵A*实现融合,获取文档所有话题的映射矩阵表示VTs,VTs=f3(Hs,A*),其中f3是转化函数;S5,使用跨文档的标签信息对所述话题的映射矩阵表示VTs的相似程度进行约束,获取话题信息增强后的映射矩阵表示VTk;S6,对所述VTk进行融合,获取文档D的语义表示向量Rep,其中Rep=f4(VTk),其中,f4为融合函数;S7,对所述Rep经过话题分类器进行分类,并根据分类精确度和话题相似度指标得到误差指数,并利用目标函数梯度下降方法更新步骤S1~S6中的模型参数。2.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法,其特征在于,S1包括以下步骤:S11,对所有文本数据进行抽取与清理,其中,如果是英文数据,则进行标记化和词干化;如果是中文数据,则进行中文分词处理;并去除文本数据中的停用词,删除词数小于六个词的文档;S12,利用经大语料预训练后的Word2Vec词向量模型将语料中的所有词转化为词向量。3.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法,其特征在于,S2包括以下步骤:S21,设计序列形式长短期记忆模型,即LSTM模型,计算方式如下,其中,I、F、O和G分别是输入门、输出门、遗忘门以及节点信息状态,σ表示sigmoid激活函数,tanh是双曲正切函数,Wseq是深度学习神经网络的权重矩阵,Bseq是深度学习神经网络的偏置向量,seq表示参数属于文本序列层;S22,根据LSTM模型计算文档当前词对应的隐藏状态Ct,计算方式如下,C′t=It·Gt+Ft·Ct-1S23,根据LSTM模型和所述文档当前词对应的隐藏状态Ct,对隐藏状态Ct进行激活,获取该词对应的潜在上下文语义状态,计算方式如下,ht=Ot·tanh(Ct)S24,记录文本序列层结果,文档D={x1,x2,...,xn}经过文本序列层生成了对应语义状态矩阵Hs={h1,h2,...,hn}和隐藏状态矩阵Cs={C1,C2,...,Cn},这两个矩阵蕴含了文档D内的上下文语义信息。4.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法,其特征在于,S3包括以下步骤:S31,根据文档D上下文语义信息获取注意力强度at,计算方式如下,其中,at是K维向量,代表文档第t个词对对应话题的注意力强度,Watt与batt分别为注意力层的权值矩阵和偏置向量参数;S32,计算注意力权重矩阵;经过步骤S31后得到的注意力强度矩阵A={a1,a2,...,an}是个n×K矩阵,先将其进行转置为K×n,即,通过下面的softmax算法将这种强度分布归一化为概率分布形式,最后记录归一化后的注意力权重矩阵A*如下,5.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法,其特征在于,S4包括以下步骤:通过潜在语义矩阵Hs和所述注意力权重矩阵A*实现融合,获取当前文档D在所有话题的映射矩阵表示;其中,VTs对应语料中所有的K个话题,而VTCs是VTs对应的隐藏状态,它们的计算方式如下:其中VTs和VTCs均有K行,每个行向量对应一个话题的相关信息表示向量。6.根据权利要求1所述的基于深度学习话题信息增强的文本文档表示方法,其特征在于,S5包括以下步骤:S51,话题表示向量转化,话题表示向量VT和VTC的维度不一定等于K,因此首先要通过下面算法转变它们的长度:其中,Ws和Bs是话题信息相似度约束机制中的权值矩阵参数和偏置矩阵参数,...

【专利技术属性】
技术研发人员:张文跃王素格李德玉
申请(专利权)人:山西大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1