基于深度学习的词句级短文本分类方法技术

技术编号:23162015 阅读:127 留言:0更新日期:2020-01-21 22:02
基于深度学习的词句级短文本分类方法,属于自然语言处理技术领域。该方法基于词向量技术将词特征与句特征结合以表现复杂文本特征,通过卷积神经网络多个卷积核对单句句内的词向量进行卷积池化并连接全部特征图获得句向量,再将句向量按时序输入长短期记忆网络进行上下文关联以更好的表达文本内容。将待分类短文本数据经分句、分词、去除停用词并转化词向量等处理后输入词句级卷积循环神经网络进行训练,最终可获得短文本分类模型并完成短文本分类任务。该方法在测试的中文垃圾电子邮件分类与新闻文本分类上均有着较好的表现。

Word sentence level short text classification method based on deep learning

【技术实现步骤摘要】
基于深度学习的词句级短文本分类方法
本专利技术属于自然语言处理
,具体涉及一种基于深度学习的词句级短文本分类方法。
技术介绍
随着计算机数据处理技术的发展,文本分类技术逐渐成熟并得到广泛的应用,其可应用的领域包括情感分析、主题分类、垃圾邮件检测等。而深度学习技术的发展,逐渐突出了卷积神经网络和循环神经网络两大重要的人工神经网络分支。于是,卷积神经网络利用其提取局部特征与有效降低权重参数的特性可较好的应用于计算机视觉的领域;循环神经网络对于前后输入的记忆与关联能力较强,善于处理序列及时间序列问题,因而常常应用于计算机认知科学的领域。考虑到文本内容的线性逻辑结构,学者们利用循环神经网络擅长处理时序数据的特点将其应用于文本分类中,进而衍生出矩阵向量循环神经网络(MV-RNN)、双向改进循环神经网络(Bi-LSTM)等结构。词向量的发现,使学者们尝试在文本分类中引入卷积神经网络,并提出了单层卷积神经网络(CNN-nostatic)、字符级的卷积神经网络(ConvNets)等结构。基于单层网络特征提取的局限性,有学者考虑利用复合网络模型完成深度特征的提取。因此,以AleksandrSboev等人为代表的C-RNN的研究者们,提出了一种结合CNN(卷积神经网络)、MLP(多层神经网络)和LSTM(长短期记忆网络)的网络结构应用于文本分类领域。这种结构延伸出了一系列的研究,并实现了英文短文本分类、基于推特内容的交通事件检测模型与中文微博文本的情感分析等任务的处理。然而,目前的C-RNN研究更多倾向于改变卷积核或循环神经网络,尝试增加特征提取深度来获得更高的分类结果。实际上,很多研究都忽略了将句子层与词层结合研究,进行特征复合来进行复杂特征提取。因此,本专利技术提出了一种将词特征与句子特征结合的方法,基于词向量获得的词特征构建句子特征来表现短文本语义,进而实现文本的分类。
技术实现思路
本专利技术的目的在于提供一种基于深度学习的词句级短文本分类方法,通过构建并训练所提出的词句级卷积循环神经网络模型实现。首先对输入的文本进行预处理操作,之后通过迭代卷积网络对输入文本每个句子中的词进行卷积池化计算提取句内词特征,然后将卷积网络输出的表达每个句子特征的向量依次输入长短期记忆网络进行全局关联,最后经过全连接层输出分类结果。本专利技术的目的是这样实现的:基于深度学习的词句级短文本分类方法,包括如下步骤:步骤一:获取待分类的文本数据及标签;步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H2=(H1-F+2P)/S+1,其中F表示卷积核维度的大小,P表示Padding的尺寸,S表示卷积步长,通过n个卷积核的计算,每个句子最终获得n张一维卷积特征图;步骤五:使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征,池化后每个卷积核计算出的特征图将压缩为一个单一值,每个句子的特征由n个特征图池化后连接得到的n维向量表示,其将作为长短期记忆层某一时序下的输入;步骤六:通过卷积层与池化层递归的对每个句子进行计算,获得总时序y下长短期记忆层的输入;步骤七:将长短期记忆层的输出作为输入进入全连接层,用以平展网络的输出,全连接层输出维度为数据的类别数目并将Softmax函数作为分类器,通过计算全连接层的输出实现分类,其计算式为其中,y(i)代表输出层第i个神经元的值,y(k)代表输出层中第k个神经元的值,exp代表以e为底的指数函数。所述步骤四中一维卷积计算式为其中Mj表示某一卷积核输入值集合,与分别为卷积权重和偏置。所述步骤四中使用一维卷积层对输入进行卷积操作,卷积核大小设置为5,步长为1,数目256个。所述步骤五中一维最大池化计算式为ht=max(Hj),其中ht表示长短期记忆层在t时刻的输入句向量连接式为Ht=[ht(1);ht(2);...;ht(n)]。所述步骤六中长短期记忆网络在时序t时单一节点的递进计算公式为ft=σ(Wf×[ht-1,ht]+bf),it=σ(Wi×[ht-1,ht]+bi),ot=σ(Wo×[ht-1,ht]+bo),h't=ot*tanh(ct),其中,ft表示遗忘门,σ表示sigmoid函数,Wf表示遗忘门的权重矩阵,ht-1代表LSTM网络上个时刻的输出,ht表示长短期记忆层在t时刻的输入,[ht-1,ht]表示把当前向量合并至前序向量中,bf为遗忘门的偏置值;it表示输入门,Wi表示输入门的权重矩阵,bi表示输入门的偏置值;表示根据上一次的输出和当前的输入计算获得的当前输入的状态,WC表示当前输入状态的权重矩阵,bC表示当前输入状态的偏置值;Ct表示由遗忘门ft乘上一时刻的单元状态Ct-1加输入门it乘当前输入状态的和计算出的当前时刻状态,这样就把长短期记忆层长期的记忆Ct-1与当前记忆结合在一起形成新的状态Ct;ot表示输出门,Wo代表输出门的权重,bo代表输出门的偏置值;h't表示长短期记忆层最终的输出。所述步骤六中在长短记忆层的每层门后加入Dropout机制。所述步骤七中在全连接层后均加入Dropout机制,全连接层节点后接入ReLU激活函数。本专利技术有益效果在于:(1)相比于当前诸如Bi-LSTM、CNN-nostatic等单层神经网络特征维度上的表现,本专利技术基于复合神经网络实现,其特征维度要高于前述单层神经网络;(2)相比于当前的种种C-RNN结构在提取特征深度上的突破,本专利技术在特征提取中保留了句子结构,通过CNN与RNN分别实现句内词间关系与句间关系的提取;(3)相比于当前的网络输入多数为二维矩阵的情况,本专利技术的网络输入结构为三维张量;(4)本专利技术由于以句子为单位限定了不同文本卷积池化迭代的次数需相同,由本方法进行分类,文本篇幅差距不宜过大,因此较为适用于短文本分类。附图说明图1为词句级卷积循环神经网络模型结构图。具体实施方式下面结合
技术实现思路
,通过以下实施例阐述本专利技术的一种详细实施方案与效果。一种基于深度学习的词句级卷积循环神经网络短文本分类方法,用于处理短文本分类任务。本专利技术的核心在于基于词向量技术,通过连接卷积神经网络多个卷积核卷积池化句内词向量获得的多组特征图实现句向量,进而保留文本的句子层结构,完成句子内容的表达。句子是承载词汇的结构,因此句的本质仍然为词。由词向量构成的二维矩阵经过n个卷积核进行一维卷积并最大池化后,将得到一个由多个特征图组成的n维向量。这个n维向量体现了句本文档来自技高网
...

【技术保护点】
1.基于深度学习的词句级短文本分类方法,其特征在于,包括:/n步骤一:获取待分类的文本数据及标签;/n步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;/n步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;/n步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H

【技术特征摘要】
1.基于深度学习的词句级短文本分类方法,其特征在于,包括:
步骤一:获取待分类的文本数据及标签;
步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;
步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;
步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H2=(H1-F+2P)/S+1,其中F表示卷积核维度的大小,P表示Padding的尺寸,S表示卷积步长,通过n个卷积核的计算,每个句子最终获得n张一维卷积特征图;
步骤五:使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征,池化后每个卷积核计算出的特征图将压缩为一个单一值,每个句子的特征由n个特征图池化后连接得到的n维向量表示,其将作为长短期记忆层某一时序下的输入;
步骤六:通过卷积层与池化层递归的对每个句子进行计算,获得总时序y下长短期记忆层的输入;
步骤七:将长短期记忆层的输出作为输入进入全连接层,用以平展网络的输出,全连接层输出维度为数据的类别数目并将Softmax函数作为分类器,通过计算全连接层的输出实现分类,其计算式为其中,y(i)代表输出层第i个神经元的值,y(k)代表输出层中第k个神经元的值,exp代表以e为底的指数函数。


2.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中一维卷积计算式为其中Mj表示某一卷积核输入值集合,与分别为卷积权重和偏置。


3.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中使用一维卷...

【专利技术属性】
技术研发人员:杨悦孟宪禹
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1