【技术实现步骤摘要】
基于深度学习的词句级短文本分类方法
本专利技术属于自然语言处理
,具体涉及一种基于深度学习的词句级短文本分类方法。
技术介绍
随着计算机数据处理技术的发展,文本分类技术逐渐成熟并得到广泛的应用,其可应用的领域包括情感分析、主题分类、垃圾邮件检测等。而深度学习技术的发展,逐渐突出了卷积神经网络和循环神经网络两大重要的人工神经网络分支。于是,卷积神经网络利用其提取局部特征与有效降低权重参数的特性可较好的应用于计算机视觉的领域;循环神经网络对于前后输入的记忆与关联能力较强,善于处理序列及时间序列问题,因而常常应用于计算机认知科学的领域。考虑到文本内容的线性逻辑结构,学者们利用循环神经网络擅长处理时序数据的特点将其应用于文本分类中,进而衍生出矩阵向量循环神经网络(MV-RNN)、双向改进循环神经网络(Bi-LSTM)等结构。词向量的发现,使学者们尝试在文本分类中引入卷积神经网络,并提出了单层卷积神经网络(CNN-nostatic)、字符级的卷积神经网络(ConvNets)等结构。基于单层网络特征提取的局限性,有 ...
【技术保护点】
1.基于深度学习的词句级短文本分类方法,其特征在于,包括:/n步骤一:获取待分类的文本数据及标签;/n步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;/n步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;/n步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H
【技术特征摘要】
1.基于深度学习的词句级短文本分类方法,其特征在于,包括:
步骤一:获取待分类的文本数据及标签;
步骤二:处理文本数据,通过Word2Vector训练获得词向量源表与检索词向量源表的词标签表;
步骤三:通过识别尾缀符对文本数据进行分句处理,之后递归的对每个句子进行分词、去除停用词操作,最后通过词标签表检索词向量源表中的词向量来表示词,并根据句内词维数与句子要求进行Padding操作;最终将文本转化为y×x×z的三维张量,其中y为句维数、x为句内词维数、z为词向量维数;
步骤四:使用多卷积核对输入张量进行一维卷积计算,卷积后的特征图高度为H2=(H1-F+2P)/S+1,其中F表示卷积核维度的大小,P表示Padding的尺寸,S表示卷积步长,通过n个卷积核的计算,每个句子最终获得n张一维卷积特征图;
步骤五:使用一维最大池化MaxPooling1D对卷积后的结果进行池化以提取句子的核心特征,池化后每个卷积核计算出的特征图将压缩为一个单一值,每个句子的特征由n个特征图池化后连接得到的n维向量表示,其将作为长短期记忆层某一时序下的输入;
步骤六:通过卷积层与池化层递归的对每个句子进行计算,获得总时序y下长短期记忆层的输入;
步骤七:将长短期记忆层的输出作为输入进入全连接层,用以平展网络的输出,全连接层输出维度为数据的类别数目并将Softmax函数作为分类器,通过计算全连接层的输出实现分类,其计算式为其中,y(i)代表输出层第i个神经元的值,y(k)代表输出层中第k个神经元的值,exp代表以e为底的指数函数。
2.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中一维卷积计算式为其中Mj表示某一卷积核输入值集合,与分别为卷积权重和偏置。
3.根据权利要求1所述的基于深度学习的词句级短文本分类方法,其特征在于:所述的步骤四中使用一维卷...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。