基于深度学习的词句级短文本分类方法技术

技术编号：23162015 阅读：127 留言：0更新日期：2020-01-21 22:02

基于深度学习的词句级短文本分类方法，属于自然语言处理技术领域。该方法基于词向量技术将词特征与句特征结合以表现复杂文本特征，通过卷积神经网络多个卷积核对单句句内的词向量进行卷积池化并连接全部特征图获得句向量，再将句向量按时序输入长短期记忆网络进行上下文关联以更好的表达文本内容。将待分类短文本数据经分句、分词、去除停用词并转化词向量等处理后输入词句级卷积循环神经网络进行训练，最终可获得短文本分类模型并完成短文本分类任务。该方法在测试的中文垃圾电子邮件分类与新闻文本分类上均有着较好的表现。

Word sentence level short text classification method based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的词句级短文本分类方法
本专利技术属于自然语言处理
，具体涉及一种基于深度学习的词句级短文本分类方法。
技术介绍
随着计算机数据处理技术的发展，文本分类技术逐渐成熟并得到广泛的应用，其可应用的领域包括情感分析、主题分类、垃圾邮件检测等。而深度学习技术的发展，逐渐突出了卷积神经网络和循环神经网络两大重要的人工神经网络分支。于是，卷积神经网络利用其提取局部特征与有效降低权重参数的特性可较好的应用于计算机视觉的领域；循环神经网络对于前后输入的记忆与关联能力较强，善于处理序列及时间序列问题，因而常常应用于计算机认知科学的领域。考虑到文本内容的线性逻辑结构，学者们利用循环神经网络擅长处理时序数据的特点将其应用于文本分类中，进而衍生出矩阵向量循环神经网络(MV-RNN)、双向改进循环神经网络(Bi-LSTM)等结构。词向量的发现，使学者们尝试在文本分类中引入卷积神经网络，并提出了单层卷积神经网络(CNN-nostatic)、字符级的卷积神经网络(ConvNets)等结构。基于单层网络特征提取的局限性，有学者考虑利用复合网络模型完成深度特征的提取。因此，以AleksandrSboev等人为代表的C-RNN的研究者们，提出了一种结合CNN(卷积神经网络)、MLP(多层神经网络)和LSTM(长短期记忆网络)的网络结构应用于文本分类领域。这种结构延伸出了一系列的研究，并实现了英文短文本分类、基于推特内容的交通事件检测模型与中文微博文本的情感分析等任务的处理。然而，目前的C-RNN研究更多倾向于改...

【技术保护点】
1.基于深度学习的词句级短文本分类方法，其特征在于，包括：/n步骤一：获取待分类的文本数据及标签；/n步骤二：处理文本数据，通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表；/n步骤三：通过识别尾缀符对文本数据进行分句处理，之后递归的对每个句子进行分词、去除停用词操作，最后通过词标签表检索词向量源表中的词向量来表示词，并根据句内词维数与句子要求进行Padding操作；最终将文本转化为y×x×z的三维张量，其中y为句维数、x为句内词维数、z为词向量维数；/n步骤四：使用多卷积核对输入张量进行一维卷积计算，卷积后的特征图高度为H

【技术特征摘要】
1.基于深度学习的词句级短文本分类方法，其特征在于，包括：
步骤一：获取待分类的文本数据及标签；
步骤二：处理文本数据，通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表；
步骤三：通过识别尾缀符对文本数据进行分句处理，之后递归的对每个句子进行分词、去除停用词操作，最后通过词标签表检索词向量源表中的词向量来表示词，并根据句内词维数与句子要求进行Padding操作；最终将文本转化为y×x×z的三维张量，其中y为句维数、x为句内词维数、z为词向量维数；
步骤四：使用多卷积核对输入张量进行一维卷积计算，卷积后的特征图高度为H2＝(H1-F+2P)/S+1，其中F表示卷积核维度的大小，P表示Padding的尺寸，S表示卷积步长，通过n个卷积核的计算，每个句子最终获得n张一维卷积特征图；
步骤五：使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征，池化后每个卷积核计算出的特征图将压缩为一个单一值，每个句子的特征由n个特征图池化后连接得到的n维向量表示，其将作为长短期记忆层某一时序下的输入；
步骤六：通过卷积层与池化层递归的对每个句子进行计算，获得总时序y下长短期记忆层的输入；
步骤七：将长短期记忆层的输出作为输入进入全连接层，用以平展网络的输出，全连接层输出维度为数据的类别数目并将Softmax函数作为分类器，通过计算全连接层的输出实现分类，其计算式为其中，y(i)代表输出层第i个神经元的值，y(k)代表输出层中第k个神经元的值，exp代表以e为底的指数函数。

2.根据权利要求1所述的基于深度学习的词句级短文本分类方法，其特征在于：所述的步骤四中一维卷积计算式为其中Mj表示某一卷积核输入值集合，与分别为卷积权重和偏置。

3.根据权利要求1所述的基于深度学习的词句级短文本分类方法，其特征在于：所述的步骤四中使用一维卷...

【专利技术属性】
技术研发人员：杨悦，孟宪禹，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人