基于Attention神经网络的多元特征融合中文文本分类方法技术

技术编号：18783752 阅读：25 留言：0更新日期：2018-08-29 06:56

本发明专利技术方案公开了基于Attention神经网络的多元特征融合中文文本分类方法，属于自然语言处理领域。为了进一步提高中文文本分类的准确性，本发明专利技术通过融合3条CNN通路充分挖掘文本数据在3种不同尺寸卷积核粒度下的特征；通过融合LSTM通路来体现文本数据之间的相互联系；特别地,通过融合所提出的Attention算法模型使相对重要的数据特征在中文文本类别识别过程中发挥更大的作用，从而提高模型对中文文本类别的识别能力。实验结果表明，同等实验条件下，相比于CNN模型，LSTM结构模型及其两者的组合模型，本发明专利技术提出的模型的中文文本分类准确率明显提高，能够更好的应用于对分类准确率要求高的中文文本分类领域。

全部详细技术资料下载

【技术实现步骤摘要】
基于Attention神经网络的多元特征融合中文文本分类方法
本专利技术涉及自然语言处理领域，尤其涉及基于Attention神经网络的多元特征融合中文文本分类方法。
技术介绍
中文文本分类是高效管理与挖掘互联网上海量中文文本信息的重要手段，是自然语言处理中一个重要的研究方向。90年代以来，许多研究人员开始将各种统计学方法和机器学习方法应用于自动文本分类，例如支持向量机SVM、AdaBoost算法、朴素贝叶斯算法、KNN算法和Logistic回归等。近年来，随着深度学习和各种神经网络模型的快速发展，基于深度学习的文本分类方法引起了学术界和工业界的密切关注与研究，一些典型的神经网络模型，如长短期记忆网络LSTM和卷积神经网络CNN都被广泛地应用于文本的分类中，并取得了良好的效果。以往深度学习的网络模型都是通过增加网络层数来获得数据的深层特征，但层数增加会造成信息损失。近年来，Attention算法开始用于文本的情感分析中，并且(张冲.(2016).基于Attention-BasedLSTM模型的文本分类技术的研究.)证明了Attention算法对于文本分类的有效性，对今后的研究提出了多种可能。现有的研究和应用已证明LSTM(长短期记忆网络)适合用于学习句子中语言单元间的长期依赖关系，CNN(卷积神经网络)适合用于学习句子的局部特征，但目前的研究没有充分地结合三种算法的优势。
技术实现思路
针对以上问题，本专利技术提出基于Attention算法的权重生成算法；同时利用CNN和LSTM各自特点，采用多元特征融合的方法将CNN、LSTM和基于Attention算法结合起...

【技术保护点】
1.基于Attention神经网络的多元特征融合中文文本分类方法，其特征在于，包括以下阶段：阶段1：对中文文本语料进行预处理；阶段2：构建Attention算法神经网络模型；阶段3：构建多元特征融合神经网络模型，所述多元特征融合的神经网络由三条CNN通路，一条LSTM通路和一条Attention算法通路并联组成；阶段4：模型训练，将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络，得到的数据先通过一个全连接层，接着再输入到由softmax函数构成的分类器，进行训练并得到训练参数；阶段5：模型测试，将测试集的词向量构成的嵌入层输入到训练后的模型中，得到的数据先通过一个全连接层，接着再输入到softmax函数构成的分类器，分类器输出文本类别。

【技术特征摘要】
1.基于Attention神经网络的多元特征融合中文文本分类方法，其特征在于，包括以下阶段：阶段1：对中文文本语料进行预处理；阶段2：构建Attention算法神经网络模型；阶段3：构建多元特征融合神经网络模型，所述多元特征融合的神经网络由三条CNN通路，一条LSTM通路和一条Attention算法通路并联组成；阶段4：模型训练，将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络，得到的数据先通过一个全连接层，接着再输入到由softmax函数构成的分类器，进行训练并得到训练参数；阶段5：模型测试，将测试集的词向量构成的嵌入层输入到训练后的模型中，得到的数据先通过一个全连接层，接着再输入到softmax函数构成的分类器，分类器输出文本类别。2.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法，其特征在于，所述对中文文本语料进行预处理包含以下步骤：步骤(1)分词并生成词向量词典：收集中文文本语料，分词处理，利用word2vec训练生成词向量词典；步骤(2)数据集划分：将分词处理后的中文文本语料划分为训练集和测试集；步骤(3)文本数字化：使用tokenizer函数将训练集中的每个字，词和标点与词向量词典对比，生成训练集的词向量索引，用测试集与词向量词典对比，生成测试集的词向量索引；步骤(4)文本向量化：按词向量索引的索引号从词典中提取对应的词向量，并组成嵌入层；步骤(5)打标签：根据中文文本语料的类别数量，对语料的不同类别赋予one-hot形式的标签。3.根据权利要求2所述的基于Attention神经网络的多元特征融合中文文本分类方法，其特征在于，所述分词处理后的语料保留标点及所有的字和词。4.根据权利要求2所述的基于Attention神经网络的多元特征融合中文文本分类方法，其特征在于，所述分词处理后的每篇文章所生成的词向量矩阵维度相同。5.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法，其特征在于，所述Attention算法神经网络模型的输出为：aj＝P(yt|yt-1,X)，其中X为当前时间步的输入：X＝[x1,x2…xn]，n为每个词的向量维度；编码器LSTM的隐藏层状态值公式为：ht＝Sigmoid(U1xt+W1ht-1)其中ht表示输入序列当前时间步对应的隐藏层状态值，ht-1表示...

【专利技术属性】
技术研发人员：谢金宝，侯永进，殷楠楠，谢桂芬，王玉静，梁新涛，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人