一种文本自动分类方法技术

技术编号:17097584 阅读:18 留言:0更新日期:2018-01-21 09:29
本发明专利技术提供一种文本自动分类方法,能够提高文本分类的准确性和抗噪能力。所述方法包括:获取待分类的文本;采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。本发明专利技术涉及文本分类领域。

An automatic text classification method

The invention provides an automatic text classification method, which can improve the accuracy and anti noise ability of text classification. The method comprises: acquiring the text to be classified by noise reduction; automatic encoder and RBM, the construction noise depth of the neural network model; noise reduction by the depth of the neural network model, the text to be classified according to the feature extraction; feature extraction results, using Softmax regression algorithm for automatic classification. The present invention relates to the field of text classification.

【技术实现步骤摘要】
一种文本自动分类方法
本专利技术涉及文本分类领域,特别是指一种文本自动分类方法。
技术介绍
在网络信息中,文本作为主要的信息承载途径占据着重要地位。文本分类(TextClassification,TC)也就是利用计算机对文本集或是其它的实体和物件按照一定的分类体系或标准进行自动分类标记。目前,深度学习已经成功应用于多种模式分类问题,使用基于深度学习的方法,可以更好得挖掘蕴含在文本中的复杂语义关系。但是,现有技术中,一般采用单一的方法对文本进行分类,特征提取能力较弱,对噪声数据的处理能力较差,使得分类结果准确性较低。
技术实现思路
本专利技术要解决的技术问题是提供一种文本自动分类方法,以解决现有技术所存在的噪声处理能力差、特征提取能力弱的问题。为解决上述技术问题,本专利技术实施例提供一种文本自动分类方法,包括:获取待分类的文本;采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。进一步地,在利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取之前,所述方法还包括:剔除所述获取的待分类的文本中的噪声数据,其中,所述噪声数据包括:无用的信息和/或正文中的标点符号及特殊字符。进一步地,在剔除所述获取的待分类的文本中的噪声数据之后,所述方法还包括:对去除噪声数据的文本数据进行分词处理。进一步地,在对去除噪声数据的文本数据进行分词处理之后,所述方法还包括:根据文本数据的分词结果,对文本数据去停用词,其中,去掉的停用词为没有区分和预测能力的特征词。进一步地,在对文本数据去停用词之后,所述方法还包括:将去停用词后得到的特征词映射成为词表形式;计算特征词表中每个特征词的权值并记录在特征词表中,其中,所述特征词表包括文本、文本中的特征词与文本中每个特征词的权值之间的对应关系;根据得到的特征词表,将每个文本依次表示为特征向量的形式。进一步地,所述根据得到的特征词表,将每个文本依次表示为特征向量的形式包括:按照预设的规则,判断第一文本是否是短文本;若是,则根据短文本特征扩充算法,对所述第一文本进行特征扩充,并基于特征扩充结果,将所述第一文本表示为特征向量的形式;若不是,则根据得到的特征词表,直接将所述第一文本表示为特征向量的形式。进一步地,在根据得到的特征词表,将每个文本依次表示为特征向量的形式之后,所述方法还包括:对表示为向量特征形式的每个数值进行归一化处理。进一步地,所述降噪深度神经网络模型包括:位于所述降噪深度神经网络模型最底层的第一降噪自动编码器、位于所述第一降噪自动编码器上层的第二降噪自动编码器、位于所述第二降噪自动编码器上层的第一受限玻尔兹曼机、位于所述第一受限玻尔兹曼机上层的第二受限玻尔兹曼机。进一步地,所述第一降噪自动编码器和第二降噪自动编码器组成降噪模块,所述降噪模块用于对输入所述降噪深度神经网络模型的特征向量进行降噪处理;其中,所述第二降噪自动编码器所在层是所述降噪模块的输出层同时也是所述第一受限玻尔兹曼机的输入层;所述第二受限玻尔兹曼机是所述降噪深度神经网络模型的输出层,输出层的输出结果为所述待分类的文本的特征表示。进一步地,所述降噪深度神经网络模型的输入是一个固定维度的特征向量。本专利技术的上述技术方案的有益效果如下:上述方案中,通过采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。这样,基于具有强大的抗噪能力的降噪自动编码器和具有强大的特征提取能力的受限玻尔兹曼机构建的降噪深度神经网络模型提取的待分类的文本的特征,能够提高文本分类的准确性和抗噪能力。附图说明图1为本专利技术实施例提供的文本自动分类方法的流程示意图;图2为本专利技术实施例提供的将获取的待分类文本表示为特征向量的流程示意图;图3为本专利技术实施例提供的降噪深度神经网络模型的拓扑示意图;图4为本专利技术实施例提供的降噪深度神经网络模型的原理示意。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。本专利技术针对现有的噪声处理能力差、特征提取能力弱的问题,提供一种文本自动分类方法。如图1所示,本专利技术实施例提供的文本自动分类方法,包括:S101,获取待分类的文本;S102,采用降噪自动编码器(DenoisingAutoEncoder,DAE)和受限玻尔兹曼机(RestrictedBoltzmannMachine,RBM),构建降噪深度神经网络模型(DenoisingDeepNeuralNetwork,DDNN);S103,利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;S104,根据特征提取结果,利用Softmax回归算法进行自动分类。本专利技术实施例所述的文本自动分类方法,通过采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。这样,基于具有强大的抗噪能力的降噪自动编码器和具有强大的特征提取能力的受限玻尔兹曼机构建的降噪深度神经网络模型提取的待分类的文本的特征,能够提高文本分类的准确性和抗噪能力。在前述文本自动分类方法的具体实施方式中,进一步地,在利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取之前,所述方法还包括:剔除所述获取的待分类的文本中的噪声数据,其中,所述噪声数据包括:无用的信息和/或正文中的标点符号及特殊字符。如图2所示,本实施例中,剔除所述获取的待分类的文本中的噪声数据,主要是剔除一些无用的信息,例如,新闻文本中经常出现的类似作者、版号、日期之类的无用信息,网站论坛中出现的类似发信人、发信日期、发信站、来源等无用的信息,及正文中的各种标点符号及特殊字符等无用的信息。在前述文本自动分类方法的具体实施方式中,进一步地,在剔除所述获取的待分类的文本中的噪声数据之后,所述方法还包括:对去除噪声数据的文本数据进行分词处理。本实施例中,中文文本不同于英文文本,英文单词和单词之间由空格分隔,中文只有句子和句子之间有标点符号分隔,因此为提取词特征,要对去除噪声数据的中文文本进行分词处理。如图2所示,本实施例中,可以采用经过二次开发的中科院的ICTCLAS分词系统进行分词,该系统可以依据开发者选择的语言来提供服务。在前述文本自动分类方法的具体实施方式中,进一步地,在对去除噪声数据的文本数据进行分词处理之后,所述方法还包括:根据文本数据的分词结果,对文本数据去停用词,其中,去掉的停用词为没有区分和预测能力的特征词。如图2所示,本实施例中,对文本进行分词处理后,里面会包含许多无用的特征词(也称为:停用词),这些特征词没有区分和预测能力,例如,助词、冠词、连词、代词、介词等,因此,去掉这些无用的特征词,以降低特征词的维度。在前述文本自动分类方法的具体实施方式中,进一步地,在对文本数据去停用词之后,所述方法还包括:将去停用词后得到的特征词映射成为词表形式;计算特征词表中每个特征词的权值并记本文档来自技高网...
一种文本自动分类方法

【技术保护点】
一种文本自动分类方法,其特征在于,包括:获取待分类的文本;采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。

【技术特征摘要】
1.一种文本自动分类方法,其特征在于,包括:获取待分类的文本;采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。2.根据权利要求1所述的文本自动分类方法,其特征在于,在利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取之前,所述方法还包括:剔除所述获取的待分类的文本中的噪声数据,其中,所述噪声数据包括:无用的信息和/或正文中的标点符号及特殊字符。3.根据权利要求2所述的文本自动分类方法,其特征在于,在剔除所述获取的待分类的文本中的噪声数据之后,所述方法还包括:对去除噪声数据的文本数据进行分词处理。4.根据权利要求3所述的文本自动分类方法,其特征在于,在对去除噪声数据的文本数据进行分词处理之后,所述方法还包括:根据文本数据的分词结果,对文本数据去停用词,其中,去掉的停用词为没有区分和预测能力的特征词。5.根据权利要求4所述的文本自动分类方法,其特征在于,在对文本数据去停用词之后,所述方法还包括:将去停用词后得到的特征词映射成为词表形式;计算特征词表中每个特征词的权值并记录在特征词表中,其中,所述特征词表包括文本、文本中的特征词与文本中每个特征词的权值之间的对应关系;根据得到的特征词表,将每个文本依次表示为特征向量的形式。6.根据权利要求5所述的文本自动分类方法,其特征在于,所述根据得...

【专利技术属性】
技术研发人员:张媛钰阿孜古丽谢永红张德政栗辉李春苗
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1