基于Attention神经网络的多元特征融合中文文本分类方法技术

技术编号:18783752 阅读:25 留言:0更新日期:2018-08-29 06:56
本发明专利技术方案公开了基于Attention神经网络的多元特征融合中文文本分类方法,属于自然语言处理领域。为了进一步提高中文文本分类的准确性,本发明专利技术通过融合3条CNN通路充分挖掘文本数据在3种不同尺寸卷积核粒度下的特征;通过融合LSTM通路来体现文本数据之间的相互联系;特别地,通过融合所提出的Attention算法模型使相对重要的数据特征在中文文本类别识别过程中发挥更大的作用,从而提高模型对中文文本类别的识别能力。实验结果表明,同等实验条件下,相比于CNN模型,LSTM结构模型及其两者的组合模型,本发明专利技术提出的模型的中文文本分类准确率明显提高,能够更好的应用于对分类准确率要求高的中文文本分类领域。

【技术实现步骤摘要】
基于Attention神经网络的多元特征融合中文文本分类方法
本专利技术涉及自然语言处理领域,尤其涉及基于Attention神经网络的多元特征融合中文文本分类方法。
技术介绍
中文文本分类是高效管理与挖掘互联网上海量中文文本信息的重要手段,是自然语言处理中一个重要的研究方向。90年代以来,许多研究人员开始将各种统计学方法和机器学习方法应用于自动文本分类,例如支持向量机SVM、AdaBoost算法、朴素贝叶斯算法、KNN算法和Logistic回归等。近年来,随着深度学习和各种神经网络模型的快速发展,基于深度学习的文本分类方法引起了学术界和工业界的密切关注与研究,一些典型的神经网络模型,如长短期记忆网络LSTM和卷积神经网络CNN都被广泛地应用于文本的分类中,并取得了良好的效果。以往深度学习的网络模型都是通过增加网络层数来获得数据的深层特征,但层数增加会造成信息损失。近年来,Attention算法开始用于文本的情感分析中,并且(张冲.(2016).基于Attention-BasedLSTM模型的文本分类技术的研究.)证明了Attention算法对于文本分类的有效性,对今后的研究提出了多种可能。现有的研究和应用已证明LSTM(长短期记忆网络)适合用于学习句子中语言单元间的长期依赖关系,CNN(卷积神经网络)适合用于学习句子的局部特征,但目前的研究没有充分地结合三种算法的优势。
技术实现思路
针对以上问题,本专利技术提出基于Attention算法的权重生成算法;同时利用CNN和LSTM各自特点,采用多元特征融合的方法将CNN、LSTM和基于Attention算法结合起来,提出适合中文文本分类任务的多元特征融合的神经网络模型。基于Attention神经网络的多特征融合中文文本分类方法,包括以下阶段:阶段1:对中文文本语料进行预处理;阶段2:构建Attention算法神经网络模型;阶段3:构建多元特征融合神经网络模型,所述多元特征融合的神经网络由三条CNN通路,一条LSTM通路和一条Attention算法通路并联组成;阶段4:模型训练,将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行训练并得到训练参数;阶段5:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别。所述预处理包含以下步骤:步骤(1)分词并生成词向量词典:收集中文文本语料,分词处理,利用word2vec训练生成词向量词典;步骤(2)数据集划分:将分词处理后的中文文本语料划分为训练集和测试集;步骤(3)文本数字化:使用tokenizer函数将训练集中的每个字,词和标点与词向量词典对比,生成训练集的词向量索引,用测试集与词向量词典对比,生成测试集的词向量索引;步骤(4)文本向量化:按词向量索引的索引号从词典中提取对应的词向量,并组成嵌入层;步骤(5)打标签:根据中文文本语料的类别数量,对语料的不同类别赋予one-hot形式的标签。分词处理后的语料保留标点及所有的字和词。分词处理后的每篇文章所生成的词向量矩阵维度相同。所述Attention算法神经网络模型的输出为:aj=P(yt|yt-1,X),其中X为当前时间步的输入:X=[x1,x2…xn],n为每个词的向量维度;编码器LSTM的隐藏层状态值公式为:ht=Sigmoid(U1xt+W1ht-1)其中ht表示输入序列当前时间步对应的隐藏层状态值,ht-1表示前一时间步的隐藏层状态值,U1,W1为权值矩阵;对当前时间步的隐藏层状态值ht进行初步学习并得到学习结果m,ht初步学习的公式为:m=tanh(ht·Ut+bh)其中,Ut为权重矩阵,bh为偏置向量;对前一时间步的隐藏层状态值ht-1进行初步学习并得到学习结果d,ht-1初步学习的公式为:d=tanh(ht-1·Wa+ba)其中,Wa为权重矩阵,ba为偏置向量;接下来通过对ht和ht-1的初步学习结果进行非线性融合获得权重e:e=exp((m+d)·Wh+bw)其中,Wh为权重矩阵,bW为偏置向量;对权重e经过softmax归一化处理为Attention权重:最后进行Attention权重的分配:pe=h*a其中h=[h1,h2…hT],h为编码器LSTM输出的编码向量,T为编码器LSTM的输出神经单元的个数,a=(a1,a2…aj),为Attention权重矩阵,pe为新的编码向量。所述三条CNN通路为CNN3,CNN4及CNN5,其卷积层数均为3层,各层的卷积核尺寸相同,三条CNN的卷积核尺寸依次为3,4及5,且池化层均采用最大池化。所述三条CNN通路,一条LSTM通路和一条Attention算法通路的输出在融合层以拼接融合的方式进行多元特征的融合。阶段4中所述的训练参数为:θ={WCONV3,WCONV4,WCONV5,WLSTM,WATT,bCONV3,bCONV4,bCONV5,bLSTM,bATT},其中CNN3通路训练得到权重WCONV3和偏置bCONV3;CNN4通路训练得到权重WCONV4和偏置bCONV4;CNN5通路训练得到权重WCONV5和偏置bCONV5;LSTM通路训练得到权重WLSTM和偏置bLSTM;Attention通路训练得到权重WATT和偏置bATT。对所述训练参数进行更新时,以损失函数Loss对θ求偏导,优化方法选用Adadelta。有益效果:本专利技术利用3条CNN通路,充分挖掘文本数据在3种不同尺寸卷积核粒度下的特征;同时,通过融合LSTM通路来体现文本数据远距离之间的相互联系;特别地通过融合所提出的基于Attention算法的神经网络模型使相对重要的数据特征在中文文本类别识别过程中发挥更大的作用。利用三种神将网络来实现文本不同层次特征的多元特征融合,以充分而全面地挖掘文本特征,从而提高模型对中文文本类别的识别能力。实验结果表明,同等实验条件下,相比于传统的CNN结构模型,中文文本分类准确率提高了8.1%,相比于LSTM结构模型,中文文本分类准确率提高了7.22%,相比于CNN与LSTM的组合模型,中文文本分类准确率提高了6.81%,充分表明本专利技术在中文文本分类的准确率上有大幅度提高。附图说明图1为基于Attention神经网络的多元特征融合中文文本分类模型;图2为Attention算法神经网络模型原理图;图3为多元特征融合示意图;图4为模型在100维词向量下的可视化结构图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术实施例,而非对本专利技术实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术实施例相关的部分而非全部结构,且附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸。本实施例所采用的语料为复旦大学计算机与技术系国际数据库中心自然语言处理小组组织制作。预处理的主要流程如图1所示。所采用语料集包含中文文档9833篇,共分为20个种类。以60%的语料来进行训练,40%来进行测试。本实施例中以5900篇做训练集,用于训练模型及训练参本文档来自技高网...

【技术保护点】
1.基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,包括以下阶段:阶段1:对中文文本语料进行预处理;阶段2:构建Attention算法神经网络模型;阶段3:构建多元特征融合神经网络模型,所述多元特征融合的神经网络由三条CNN通路,一条LSTM通路和一条Attention算法通路并联组成;阶段4:模型训练,将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行训练并得到训练参数;阶段5:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别。

【技术特征摘要】
1.基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,包括以下阶段:阶段1:对中文文本语料进行预处理;阶段2:构建Attention算法神经网络模型;阶段3:构建多元特征融合神经网络模型,所述多元特征融合的神经网络由三条CNN通路,一条LSTM通路和一条Attention算法通路并联组成;阶段4:模型训练,将训练集的词向量构成的嵌入层输入到多元特征融合的神经网络,得到的数据先通过一个全连接层,接着再输入到由softmax函数构成的分类器,进行训练并得到训练参数;阶段5:模型测试,将测试集的词向量构成的嵌入层输入到训练后的模型中,得到的数据先通过一个全连接层,接着再输入到softmax函数构成的分类器,分类器输出文本类别。2.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述对中文文本语料进行预处理包含以下步骤:步骤(1)分词并生成词向量词典:收集中文文本语料,分词处理,利用word2vec训练生成词向量词典;步骤(2)数据集划分:将分词处理后的中文文本语料划分为训练集和测试集;步骤(3)文本数字化:使用tokenizer函数将训练集中的每个字,词和标点与词向量词典对比,生成训练集的词向量索引,用测试集与词向量词典对比,生成测试集的词向量索引;步骤(4)文本向量化:按词向量索引的索引号从词典中提取对应的词向量,并组成嵌入层;步骤(5)打标签:根据中文文本语料的类别数量,对语料的不同类别赋予one-hot形式的标签。3.根据权利要求2所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述分词处理后的语料保留标点及所有的字和词。4.根据权利要求2所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述分词处理后的每篇文章所生成的词向量矩阵维度相同。5.根据权利要求1所述的基于Attention神经网络的多元特征融合中文文本分类方法,其特征在于,所述Attention算法神经网络模型的输出为:aj=P(yt|yt-1,X),其中X为当前时间步的输入:X=[x1,x2…xn],n为每个词的向量维度;编码器LSTM的隐藏层状态值公式为:ht=Sigmoid(U1xt+W1ht-1)其中ht表示输入序列当前时间步对应的隐藏层状态值,ht-1表示...

【专利技术属性】
技术研发人员:谢金宝侯永进殷楠楠谢桂芬王玉静梁新涛
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1