一种利用深度神经网络进行论文多标签分类的方法技术

技术编号：27533344 阅读：21 留言：0更新日期：2021-03-03 11:14

本发明专利技术公开了一种利用深度神经网络进行论文多标签分类的方法，该方法将多标签分类视为标签序列生成过程；方法分为输入序列特征学习阶段和标签序列生成（预测）阶段；该方法将多标签分类视为标签序列生成过程；方法分为输入序列特征学习阶段和标签序列生成（预测）阶段；其中在所述输入序列特征学习阶段，本发明专利技术根据论文文本序列，利用双向长短时记忆网络生成特征向量序列；在所述标签序列生成阶段，将由特征向量序列构成的上下文向量和上一时刻的标签嵌入向量输入单向长短时记忆网络，来预测该论文可能所属的下一个标签。模型通过优化后的梯度下降算法进行迭代训练，最终使用训练好的模型，结合Beam Search算法对论文所属类别进行多标签分类。行多标签分类。行多标签分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用深度神经网络进行论文多标签分类的方法

[0001]本专利技术涉及文本分类方法，具体涉及一种利用深度神经网络进行论文多标签分类的方法。

技术介绍

[0002]随着科技的发展和大量学术活动的展开，各类学术数据呈爆发式增长。学术论文作为一种重要的学术数据之一，是各类学术成果的记录和主要载体。以知网为代表的数字图书馆每年收录大量论文，为了方便管理和查阅，论文的分类是必须工作之一，同时论文分类也是实现推荐、检索等其他服务的基础。目前知网或arXiv等平台的论文分类工作主要还是基于人工和同行审阅。虽然这在一定程度上能够确保论文类别标签的真实性和准确性，但同时也存在低效，容易受到人工主观影响等不足。因此实现自动化的论文分类工作具有一定的应用价值。
[0003]论文主要为文本形式，一篇论文可以有多个类别，论文分类实际上属于文本多标签分类的研究范畴。基于SVM等传统的文本分类方法依赖特征工程，需要耗费专业人力，成本较高，不适合大规模的论文分类场景。随着人工智能的快速发展，以各类深度神经网络为基础的深度学习技术为论文分类提供了新的方法。目前已有许多针对文本分类的深度神经网络模型。Yoon Kim等在“Convolutional Neural Networks For Sentence Classification(arXiv preprint arXiv：1408.5882，2014)”中提出了基于卷积神经网络的TextCNN模型，在短文本分类上取得了良好性能，且模型并行度好，训练速度较快。但该算法存在需要进行卷积超参数...

【技术保护点】

【技术特征摘要】
1.一种利用深度神经网络进行论文多标签分类的方法，其特征在于，该方法将多标签分类视为标签序列生成过程；方法分为输入序列特征学习阶段和标签序列生成(预测)阶段；其中在所述输入序列特征学习阶段，本发明根据论文文本序列，利用双向长短时记忆网络生成特征向量序列，采用小批量随机梯度下降和Adam优化算法训练神经网络模型。2.在所述标签序列生成阶段，将由特征向量序列构成的上下文向量和上一时刻的标签嵌入向量输入单向长短时记忆网络，来预测该论文可能所属的下一个标签。3.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述神经网络模型包括输入单词序列的嵌入层，由双向长短时记忆网络构成的编码层，由单向长短时记忆网络构成的解码层共3层架构；所述嵌入层用于对输入文本序列进行降维和初步的语义表示；所述长短时记忆网络用于学习输入序列之间的长期相关性特征，并编码特征向量序列；所述单向长短时记忆网络用于生成标签序列。4.根据权利要求2所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述输入单词序列的嵌入层的输出维度为300维，双向长短时记忆网络构成的编码层的网络隐层维度为400维，单向长短时记忆网络构成的解码层的网络隐层维度为100维。5.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，输入序列特征学习阶段中所述神经网络模型的输入序列长度为450，即使用450个单词组成的序列作为一个样本输入；以此为长度对论文单词序列统一进行补齐或者截断操作，形成的向量进行模型的训练。6.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述神经网络模型中训练模型参数的方法采用Adam算法，其形式如下式所示：在于，所述神经网络模型中训练模型参数的方法采用Adam算法，其形式如下式所示：在于，所述神经网络模型中训练模型参数的方法采用Adam算法，其形式如下式所示：其中β1，β2∈[0，1)，分别是一阶动量衰减系数和二阶动量衰减系数，一般取值为0.9和0.999，ε为进步值，一般取值1e-8
，表示t-1次迭代中的参数梯度矩阵。在第t次迭代，X
t
为参数矩阵，m
t
是一阶动量，v
t
是二阶动量，属于中间变量，α是学习速率。7.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述上下文向量为特征向量序列的加权求和，通过引入Attention机制对不同时刻的上下文向量进行编码，其中上下文向量计算方法如下：上下文向量进行编码，其中上下文向量计算方法如下：上下文向量...

【专利技术属性】
技术研发人员：吴含前，滕倚昊，姚莉，李露，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人