当前位置: 首页 > 专利查询>东南大学专利>正文

一种利用深度神经网络进行论文多标签分类的方法技术

技术编号:27533344 阅读:21 留言:0更新日期:2021-03-03 11:14
本发明专利技术公开了一种利用深度神经网络进行论文多标签分类的方法,该方法将多标签分类视为标签序列生成过程;方法分为输入序列特征学习阶段和标签序列生成(预测)阶段;该方法将多标签分类视为标签序列生成过程;方法分为输入序列特征学习阶段和标签序列生成(预测)阶段;其中在所述输入序列特征学习阶段,本发明专利技术根据论文文本序列,利用双向长短时记忆网络生成特征向量序列;在所述标签序列生成阶段,将由特征向量序列构成的上下文向量和上一时刻的标签嵌入向量输入单向长短时记忆网络,来预测该论文可能所属的下一个标签。模型通过优化后的梯度下降算法进行迭代训练,最终使用训练好的模型,结合Beam Search算法对论文所属类别进行多标签分类。行多标签分类。行多标签分类。

【技术实现步骤摘要】
一种利用深度神经网络进行论文多标签分类的方法


[0001]本专利技术涉及文本分类方法,具体涉及一种利用深度神经网络进行论文多标签分类的方法。

技术介绍

[0002]随着科技的发展和大量学术活动的展开,各类学术数据呈爆发式增长。学术论文作为一种重要的学术数据之一,是各类学术成果的记录和主要载体。以知网为代表的数字图书馆每年收录大量论文,为了方便管理和查阅,论文的分类是必须工作之一,同时论文分类也是实现推荐、检索等其他服务的基础。目前知网或arXiv等平台的论文分类工作主要还是基于人工和同行审阅。虽然这在一定程度上能够确保论文类别标签的真实性和准确性,但同时也存在低效,容易受到人工主观影响等不足。因此实现自动化的论文分类工作具有一定的应用价值。
[0003]论文主要为文本形式,一篇论文可以有多个类别,论文分类实际上属于文本多标签分类的研究范畴。基于SVM等传统的文本分类方法依赖特征工程,需要耗费专业人力,成本较高,不适合大规模的论文分类场景。随着人工智能的快速发展,以各类深度神经网络为基础的深度学习技术为论文分类提供了新的方法。目前已有许多针对文本分类的深度神经网络模型。Yoon Kim等在“Convolutional Neural Networks For Sentence Classification(arXiv preprint arXiv:1408.5882,2014)”中提出了基于卷积神经网络的TextCNN模型,在短文本分类上取得了良好性能,且模型并行度好,训练速度较快。但该算法存在需要进行卷积超参数调参,不适合处理长文本等不足。Lai等在“Recurrent Convolutional Neural Networks for Text Classification(In AAAI Vol.333,pp.2267-2273)”中提出了基于卷积和递归神经网络的TextRCNN模型,综合了CNN和RNN的模型各自的优点。但上述这些模型一般都适用于单标签分类,将已知的单标签高性能分类器应用于多标签分类,需要对神经网络输出进行改造。一般做法为在神经网络最后几层采用多个Sigmoid层,或者采用Softmax并设置阈值。这些方法简单易行,但忽略了标签之间的相关性信息,在具有标签相关性的多标签分类场景中容易受到性能上的损失。

技术实现思路

[0004]为解决上述问题,本专利技术公开了一种利用深度神经网络来提高论文多标签分类的方法,通过将论文多标签分类转化为标签序列生成问题,并利用基于深度递归神经网络构建一个类似seq2seq的标签序列生成模型,使得模型不仅能学习到输入序列之间的相关性特征,并能学习到输出标签序列之间的相关性,提高论文多标签分类性能。本专利技术的技术方案是:
[0005]一种利用深度神经网络来提高论文多标签分类的方法,该方法将多标签分类视为标签序列生成过程;方法分为输入序列特征学习阶段和标签序列生成(预测)阶段;
[0006]其中在所述输入序列特征学习阶段,本专利技术根据论文文本序列,利用双向长短时
记忆网络生成特征向量序列;在所述标签序列生成阶段,将由特征向量序列构成的上下文向量和上一时刻的标签嵌入向量输入单向长短时记忆网络,来预测该论文可能所属的下一个标签。
[0007]一种利用深度神经网络进行论文多标签分类的方法,包括训练阶段和预测阶段。在训练阶段,以论文标题和摘要组成的文本序列作为输入,以论文所属若干类别标签作为输出,采用小批量随机梯度下降和Adam优化算法训练网络模型;在预测阶段,将未标注的论文标题和摘要文本序列输入模型,通过在工程上实现Beam Search算法预测最可能的标签序列,从而预测该论文可能所属的多个类别。
[0008]所述神经网络模型包括3层架构;分别为输入单词序列的嵌入层,由双向长短时记忆网络构成的编码层和由单向长短时记忆网络构成的解码层。
[0009]所述嵌入层用于对原始输入序列进行降维和初步语义的表达。所述编码层用于对输入序列进行特征提取,生成包含全文特征的上下文向量,作为解码器的输入用于解码。所述解码层用于生成类别标签序列;其中3层架构中,第一嵌入层输出维度为300、第二层隐层网络维度为400,第三层隐层网络维度为100。
[0010]在训练阶段,所述神经网络模型的输入序列为论文标题和摘要序列,将两者进行链接操作(concat)之后,以450为序列长度进行补齐或截断。即使用450个单词组成的序列作为一个样本输入;采用预训练的Word2vec模型作为嵌入层,其输出维度为300。训练采用小批量方法,并设置小批量参数batch_size为M,则输入第二层网络的训练数据维度为M
×
450
×
300,其中M值的大小可以根据实验情况调节。模型的训练损失函数选择交叉熵损失函数(CE)。而采用的优化函数,即训练模型参数的方法,是基于梯度下降算法的改进。采用Adam算法,该算法结合了RMSProp和momentum动量方法,如下式所示:
[0011][0012][0013][0014]其中β1,β2∈[0,1),分别是一阶动量衰减系数和二阶动量衰减系数,一般取值为0.9和0.999,ε为进步值,一般取值1e-8
,表示t-1次迭代中的参数梯度矩阵。在第t次迭代,X
t
为参数矩阵,m
t
是一阶动量,v
t
是二阶动量,属于中间变量,α是学习速率。
[0015]本专利技术利用基于深度神经网路的序列生成模型来预测论文所属的多个标签,模型整体架构的核心部分由基于递归神经网络(长短时记忆网络)的编码器和解码器构成。对于单个样本来说,假设解码层在时刻t-1的上下文向量为c
t-1
,上一时刻输出的标签嵌入向量为y
t-1
,上一时刻的隐层状态为s
t-1
,则时刻t的隐层状态可以通过长短时记忆网络递归公式计算出来。计算方式如下:
[0016]s
t
=LSTM(s
t-1
,W
g
y
t-1
+W
c
c
t-1
)
[0017]公式中解码器隐层状态向量s的维度在本专利技术中设置为100。上下文向量c的维度为编码器隐层维度,本专利技术中设置为400。解码器某一时刻的输入包括两部分,第一部分是上一时刻的隐层状态s
t-1
,第二部分是上一时刻输出的标签嵌入向量y
t-1
和上一时刻的上下文向量c
t-1
,经过参数矩阵W
g
和W
c
的线性变换之后再相加形成的输入向量。
[0018]计算得到当前的隐层状态向量之后可以计算该当前时刻的输出,计算方式如下:
[0019]o
t
=tanh(W
d
s
t
+V
d
c
t
)
[0020]其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用深度神经网络进行论文多标签分类的方法,其特征在于,该方法将多标签分类视为标签序列生成过程;方法分为输入序列特征学习阶段和标签序列生成(预测)阶段;其中在所述输入序列特征学习阶段,本发明根据论文文本序列,利用双向长短时记忆网络生成特征向量序列,采用小批量随机梯度下降和Adam优化算法训练神经网络模型。2.在所述标签序列生成阶段,将由特征向量序列构成的上下文向量和上一时刻的标签嵌入向量输入单向长短时记忆网络,来预测该论文可能所属的下一个标签。3.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法,其特征在于,所述神经网络模型包括输入单词序列的嵌入层,由双向长短时记忆网络构成的编码层,由单向长短时记忆网络构成的解码层共3层架构;所述嵌入层用于对输入文本序列进行降维和初步的语义表示;所述长短时记忆网络用于学习输入序列之间的长期相关性特征,并编码特征向量序列;所述单向长短时记忆网络用于生成标签序列。4.根据权利要求2所述的一种利用深度神经网络进行论文多标签分类的方法,其特征在于,所述输入单词序列的嵌入层的输出维度为300维,双向长短时记忆网络构成的编码层的网络隐层维度为400维,单向长短时记忆网络构成的解码层的网络隐层维度为100维。5.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法,其特征在于,输入序列特征学习阶段中所述神经网络模型的输入序列长度为450,即使用450个单词组成的序列作为一个样本输入;以此为长度对论文单词序列统一进行补齐或者截断操作,形成的向量进行模型的训练。6.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法,其特征在于,所述神经网络模型中训练模型参数的方法采用Adam算法,其形式如下式所示:在于,所述神经网络模型中训练模型参数的方法采用Adam算法,其形式如下式所示:在于,所述神经网络模型中训练模型参数的方法采用Adam算法,其形式如下式所示:其中β1,β2∈[0,1),分别是一阶动量衰减系数和二阶动量衰减系数,一般取值为0.9和0.999,ε为进步值,一般取值1e-8
,表示t-1次迭代中的参数梯度矩阵。在第t次迭代,X
t
为参数矩阵,m
t
是一阶动量,v
t
是二阶动量,属于中间变量,α是学习速率。7.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法,其特征在于,所述上下文向量为特征向量序列的加权求和,通过引入Attention机制对不同时刻的上下文向量进行编码,其中上下文向量计算方法如下:上下文向量进行编码,其中上下文向量计算方法如下:上下文向量...

【专利技术属性】
技术研发人员:吴含前滕倚昊姚莉李露
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1