基于深度学习的多级融合文档分类方法和系统技术方案

技术编号:20622577 阅读:42 留言:0更新日期:2019-03-20 14:26
本发明专利技术公开了一种基于深度学习的多级融合文档分类方法和系统,通过结合表示与模型的多级融合,提高文档分类的最终准确率。其技术方案为:本发明专利技术基于深度学习,结合表示与模型的多级融合文档分类方法主要包含表示融合部分与模型融合部分,其中表示融合部分通过搭建向量模型,对输入的待分类文本数据同时训练词、句、段、篇四级向量矩阵。模型融合部分接收融合向量数据,搭建三大分类模型,再经融合最终形成分类结果。

Multi-level Fusion Document Classification Method and System Based on Deep Learning

The invention discloses a multi-level fusion document classification method and system based on deep learning, which improves the final accuracy of document classification by combining multi-level fusion of representation and model. The technical scheme is as follows: The multi-level fusion document classification method based on in-depth learning and combining representation and model mainly includes representation fusion part and model fusion part, in which the expression fusion part trains four-level vector matrices of words, sentences, segments and chapters at the same time for input text data to be classified by building a vector model. The model fusion part receives the fusion vector data, builds three classification models, and finally forms the classification results after fusion.

【技术实现步骤摘要】
基于深度学习的多级融合文档分类方法和系统
本专利技术涉及自然语言处理
,特别是涉及基于深度学习,结合表示与模型的多级融合文档分类方法和系统。
技术介绍
文本分类技术是指根据预先设定的类别,运用自然语言处理方法将文本归类的技术。文本分类技术作为自然语言处理的基本技术,广泛应用各类数据挖掘、文本处理等领域。近年来,随着文本分类技术的不断发展,多种技术不断专利技术出来。例如,在文本表示领域,对词向量技术的专利技术,将每个文本中的词用固定维度的向量表示。通过训练,向量与向量的空间关系一定程度了反映了词与词之间的语义关联。在分类模型方面,有学者提出长短期记忆神经网络,在获取当前时间步数据的同时,同时获取之前时间步的状态,可更好的反映文本数据的时序特征。有学者提出使用卷积神经网络,通过多层卷积,获取不同维度的文本上下文信息,起到与N元语法模型类似的作用,并同时避免N元语法模型的缺点——N过大会导致实际计算的难以实现。机器学习领域著名的梯度提升树技术,使用多个固定大小的决策树作为多个弱学习器,多次迭代后形成分类结果,这种技术也被证明可取得显著的效果。尽管多种技术的不断出现,但是从分类结果看,技术仍然尚未完全成熟。词向量虽能一定程度上反映词与词之间的语义特征,但是对文档分类,尤其对长文档分类来说,无法体现文档的篇章结构,无法从整体上的对文档使用向量表示。多种分类模型虽均取得一定成果,各自关注各自的维度,未能将模型与多维度的表示向量结合,存在一定的局限性。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提供了一种基于深度学习的多级融合文档分类方法和系统,通过结合表示与模型的多级融合,提高文档分类的最终准确率。本专利技术的技术方案为:本专利技术揭示了一种基于深度学习的多级融合文档分类方法,包括:步骤1:对输入的文本数据进行预处理,包括在词、句、段、篇四个级别上各自构造一个矩阵;步骤2:在步骤1预处理得到的词、句、段、篇各自对应的矩阵的基础上进一步构造向量模型,使用背景词与当前句、段、篇作为输入,对中心词进行预测,向量模型收敛后分别保存词向量矩阵、句向量矩阵、段向量矩阵和文本向量矩阵,并分别进行步骤3至步骤5的处理;步骤3:基于向量模型,构造带有多级注意力机制的循环神经网络分类模型,对多级向量表示分别使用注意力机制,促使循环神经网络分类模型在多级维度动态分布注意力,建立循环神经网络分类模型对应的文本分类模型,得到循环神经网络分类模型预测的概率分布;步骤4:基于向量模型,构造依据卷积神经网络的文本分类模型,使用多个维度的卷积层获取文本上下文信息,再连接最大池化层和全连接层,得到卷积神经网络的文本分类模型预测的概率分布;步骤5:基于向量模型,训练梯度提升树分类模型,获取梯度提升树分类模型预测的概率分布;步骤6:融合循环神经网络分类模型、文本分类模型和梯度提升树分类模型,完成文本分类预测。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,步骤5中的梯度提升树分类模型是一种融合模型,以固定大小的决策树模型作为弱学习器,并通过多个弱学习器逐步迭代以构建强学习器,最终完成梯度提升树分类模型的搭建。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,步骤1中的预处理包括:(1)获取待分类的文本数据,进行中文分词,统计数据信息;(2)对文本进行去停用词、去特殊符号处理;(3)统计词语出现的频率,根据频率再次清洗;(4)在词、句、段、篇四级维度分别进行独热编码以便在词、句、段、篇这四个级别上各自构造出对应的矩阵,其中矩阵的行列数量都是不重复表示的数量,矩阵的值初始化为0,每一行中对应该级别标识序列位置的值设置为1。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,步骤2中,向量模型分别输入词、句、段、篇四级独热编码数据,以构造神经网络模型来预测中心词,再通过将中心词的预测值与目标值进行比较,计算误差后通过反向传播算法进行梯度更新,经多次迭代训练待模型收敛后,保存四级向量矩阵作为下一步分类模型的输入数据。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,步骤2进一步包括:从训练文本中选择中心词,并通过窗口范围和选择数量来确定背景词;获取中心词并转化为词编码,词编码为向量模型的目标数据,获取背景词并转化为词编码,再根据中心词的位置,选择该中心词所在的句、端、篇独热编码数据;随机初始化四个权重矩阵,分别对应词、句、段、篇四级,将背景词及中心词所在的句、段、篇独特编码数据分布与各自对应的权重矩阵进行点积操作,分别得到各自对应的词向量、句向量、段向量与篇向量;添加Concat层连接四级向量,添加全连接层并使用softmax函数进行类别预测概率归一化,最终得到预测概率分布;训练阶段使用交叉熵作为损失函数计算出损失,再利用梯度下降法计算出损失与相应参数的偏导数,以该偏导数相反的方向更新参数值;模型拟合后保存权重矩阵,分别对应词、句、段、篇向量矩阵。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,步骤3中,循环神经网络模型首先分别将词、句、段向量分别输入带有注意力机制的双向循环神经网络,最终分别获得词、句、段相应维度上的注意力向量,该三个注意力向量与篇向量连接后一同输入全连接层,最终使用softmax函数进行概率归一化。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,循环神经网络模型中的循环神经网络使用长短期记忆网络,以防止梯度消失,其中双向循环神经网络是在长短期记忆网络基础上构建的特殊长短期记忆网络层,特殊长短期记忆网络层包含两层的长短期记忆网络,第一层以正序方式输入数据并输出每个时间步的状态,第二层以倒序方式输入数据并输出每个时间步的状态,最终将两个状态合并以得到一个完整的输出。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,步骤4进一步包括:步骤41:使用多个维度的卷积层获取文本上下文信息;步骤42:分别在每个卷积层后使用最大池化层以降低数据维度;步骤43:将各个卷积层后的最大池化层的输出结构相互拼接,再通过全连接层并使用softmax函数进行概率归一化,得到文本分类模型预测的概率分布。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,步骤5进一步包括:梯度提升树分类模型以固定大小的决策树作为弱学习器,对多个弱学习器逐步迭代,其中前一个迭代的强学习器通过累加当前阶段的弱学习器可以得到当前阶段的强学习器,其中在每个迭代阶段通过损失最小化来确定当前阶段弱学习器的选择,最小化的过程通过计算最大梯度方向确定,最大梯度方向通过计算损失函数相对前一阶段强学习器最大负梯度计算,损失函数是对数似然损失函数。根据本专利技术的基于深度学习的多级融合文档分类方法的一实施例,步骤6中,文本分类预测的概率分布是循环神经网络分类模型、文本分类模型和梯度提升树分类模型的模型概率分布的平均值。本专利技术还揭示了一种基于深度学习的多级融合文档分类系统,包括:预处理模块,本文档来自技高网...

【技术保护点】
1.一种基于深度学习的多级融合文档分类方法,其特征在于,包括:步骤1:对输入的文本数据进行预处理,包括在词、句、段、篇四个级别上各自构造一个矩阵;步骤2:在步骤1预处理得到的词、句、段、篇各自对应的矩阵的基础上进一步构造向量模型,使用背景词与当前句、段、篇作为输入,对中心词进行预测,向量模型收敛后分别保存词向量矩阵、句向量矩阵、段向量矩阵和文本向量矩阵,并分别进行步骤3至步骤5的处理;步骤3:基于向量模型,构造带有多级注意力机制的循环神经网络分类模型,对多级向量表示分别使用注意力机制,促使循环神经网络分类模型在多级维度动态分布注意力,建立循环神经网络分类模型对应的文本分类模型,得到循环神经网络分类模型预测的概率分布;步骤4:基于向量模型,构造依据卷积神经网络的文本分类模型,使用多个维度的卷积层获取文本上下文信息,再连接最大池化层和全连接层,得到卷积神经网络的文本分类模型预测的概率分布;步骤5:基于向量模型,训练梯度提升树分类模型,获取梯度提升树分类模型预测的概率分布;步骤6:融合循环神经网络分类模型、文本分类模型和梯度提升树分类模型,完成文本分类预测。

【技术特征摘要】
1.一种基于深度学习的多级融合文档分类方法,其特征在于,包括:步骤1:对输入的文本数据进行预处理,包括在词、句、段、篇四个级别上各自构造一个矩阵;步骤2:在步骤1预处理得到的词、句、段、篇各自对应的矩阵的基础上进一步构造向量模型,使用背景词与当前句、段、篇作为输入,对中心词进行预测,向量模型收敛后分别保存词向量矩阵、句向量矩阵、段向量矩阵和文本向量矩阵,并分别进行步骤3至步骤5的处理;步骤3:基于向量模型,构造带有多级注意力机制的循环神经网络分类模型,对多级向量表示分别使用注意力机制,促使循环神经网络分类模型在多级维度动态分布注意力,建立循环神经网络分类模型对应的文本分类模型,得到循环神经网络分类模型预测的概率分布;步骤4:基于向量模型,构造依据卷积神经网络的文本分类模型,使用多个维度的卷积层获取文本上下文信息,再连接最大池化层和全连接层,得到卷积神经网络的文本分类模型预测的概率分布;步骤5:基于向量模型,训练梯度提升树分类模型,获取梯度提升树分类模型预测的概率分布;步骤6:融合循环神经网络分类模型、文本分类模型和梯度提升树分类模型,完成文本分类预测。2.根据权利要求1所述的基于深度学习的多级融合文档分类方法,其特征在于,步骤5中的梯度提升树分类模型是一种融合模型,以固定大小的决策树模型作为弱学习器,并通过多个弱学习器逐步迭代以构建强学习器,最终完成梯度提升树分类模型的搭建。3.根据权利要求1所述的基于深度学习的多级融合文档分类方法,其特征在于,步骤1中的预处理包括:(1)获取待分类的文本数据,进行中文分词,统计数据信息;(2)对文本进行去停用词、去特殊符号处理;(3)统计词语出现的频率,根据频率再次清洗;(4)在词、句、段、篇四级维度分别进行独热编码以便在词、句、段、篇这四个级别上各自构造出对应的矩阵,其中矩阵的行列数量都是不重复表示的数量,矩阵的值初始化为0,每一行中对应该级别标识序列位置的值设置为1。4.根据权利要求1所述的基于深度学习的多级融合文档分类方法,其特征在于,步骤2中,向量模型分别输入词、句、段、篇四级独热编码数据,以构造神经网络模型来预测中心词,再通过将中心词的预测值与目标值进行比较,计算误差后通过反向传播算法进行梯度更新,经多次迭代训练待模型收敛后,保存四级向量矩阵作为下一步分类模型的输入数据。5.根据权利要求4所述的基于深度学习的多级融合文档分类方法,其特征在于,步骤2进一步包括:从训练文本中选择中心词,并通过窗口范围和选择数量来确定背景词;获取中心词并转化为词编码,词编码为向量模型的目标数据,获取背景词并转化为词编码,再根据中心词的位置,选择该中心词所在的句、端、篇独热编码数据;随机初始化四个权重矩阵,分别对应词、句、段、篇四级,将背景词及中心词所在的句、段、篇独特编码数据分布与各自对应的权重矩阵进行点积操作,分别得到各自对应的词向量、句向量、段向量与篇向量;添加Concat层连接四级向量,添加全连接层并使用softmax函数进行类别预测概率归一化,最终得到预测概率分布;训练阶段使用交叉熵作为损失函数计算出损失,再利用梯度下降法计算出损失与相应参数的偏导数,以该偏导数相反的方向更新参数值;模型拟合后保存权重矩阵,分别对应词、句、段、篇向量矩阵。6.根据权利要求1所述的基于深度学习的多级融合文档分类方法,其特征在于,步骤3中,循环神经网络模型首先分别将词、句、段向量分别输入带有注意力机制的双向循环神经网络,最终分别获得词、句、段相应维度上的注意力向量,该三个注意力向量与篇向量连接后一同输入全连接层,最终使用softmax函数进行概率归一化。7.根据权利要求6所述的基于深度学习的多级融合文档分类方法,其特征在于,循环神经网络模型中的循环神经网络使用长短期记忆网络,以防止梯度消失,其中双向循环神经网络是在长短期记忆网络基础上构建的特殊长短期记忆网络层,特殊长短期记忆网络层包含两层的长短期记忆网络,第一层以正序方式输入数据并输出每个时间步的状态,第二层以倒序方式输入数据并输出每个时间步的状态,最终将两个状态合并以得到一个完整的输出。8.根据权利要求1所述的基于深度学习的多级融合文档分类方法,其特征在于,步骤4进一步包括:步骤41:使用多个维度的卷积层获取文本上下文信息;步骤42:分别在每个卷积层后使用最大池化层以降低数据维度;步骤43:将各个卷积层后的最大池化层的输出结构相互拼接,再通过全连接层并使用softmax函数进行概率归一化,得到文本分类模型预测的概率分布。9.根据权利要求2所述的基于深度学习的多级融合文档分类方法,其特征在于,步骤5进一步包括:梯度提升树分类模型以固定大小的决策树作为弱学习器,对多个弱学习器逐步迭代,其中前一个迭代的强学习器通过累加当前阶段的弱学习器可以得到当前阶段的强学习器,其中在每个迭代阶段通过损失最小化来确定当前阶段弱学习器的选择,最小化的过程通过计算最大梯度方向确定,最大梯度方向通过计算损失函数相对前一阶段强学习器最大负梯度计算,损失函数是对数似然损失函数。10.根据权利要求1所述的基于深度学习的多级融合文档分类方法,其特征在于,步骤6中,文本分类预测的概率分布是循环神经网络分类模型、文本分类模型和梯度提升树分类模型的模型概率分布的平均值。11.一种基于深度学习的多级融合文档分类系统,其特征在于,包括:预处理模块,对输入的文本数据进行预处理,包括在词、句、段、篇四个级别上各自构造一个矩阵...

【专利技术属性】
技术研发人员:姚毅姚智阳帅
申请(专利权)人:上海唯识律简信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1