The invention provides an automatic text classification method, which can improve the accuracy and anti noise ability of text classification. The method comprises: acquiring the text to be classified by noise reduction; automatic encoder and RBM, the construction noise depth of the neural network model; noise reduction by the depth of the neural network model, the text to be classified according to the feature extraction; feature extraction results, using Softmax regression algorithm for automatic classification. The present invention relates to the field of text classification.
【技术实现步骤摘要】
一种文本自动分类方法
本专利技术涉及文本分类领域,特别是指一种文本自动分类方法。
技术介绍
在网络信息中,文本作为主要的信息承载途径占据着重要地位。文本分类(TextClassification,TC)也就是利用计算机对文本集或是其它的实体和物件按照一定的分类体系或标准进行自动分类标记。目前,深度学习已经成功应用于多种模式分类问题,使用基于深度学习的方法,可以更好得挖掘蕴含在文本中的复杂语义关系。但是,现有技术中,一般采用单一的方法对文本进行分类,特征提取能力较弱,对噪声数据的处理能力较差,使得分类结果准确性较低。
技术实现思路
本专利技术要解决的技术问题是提供一种文本自动分类方法,以解决现有技术所存在的噪声处理能力差、特征提取能力弱的问题。为解决上述技术问题,本专利技术实施例提供一种文本自动分类方法,包括:获取待分类的文本;采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。进一步地,在利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取之前,所述方法还包括:剔除所述获取的待分类的文本中的噪声数据,其中,所述噪声数据包括:无用的信息和/或正文中的标点符号及特殊字符。进一步地,在剔除所述获取的待分类的文本中的噪声数据之后,所述方法还包括:对去除噪声数据的文本数据进行分词处理。进一步地,在对去除噪声数据的文本数据进行分词处理之后,所述方法还包括:根据文本数据的分词结果,对文本数据去停用词,其中,去掉的停用词为没有区分和 ...
【技术保护点】
一种文本自动分类方法,其特征在于,包括:获取待分类的文本;采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。
【技术特征摘要】
1.一种文本自动分类方法,其特征在于,包括:获取待分类的文本;采用降噪自动编码器和受限玻尔兹曼机,构建降噪深度神经网络模型;利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取;根据特征提取结果,利用Softmax回归算法进行自动分类。2.根据权利要求1所述的文本自动分类方法,其特征在于,在利用构建的降噪深度神经网络模型,对获取的待分类的文本进行特征提取之前,所述方法还包括:剔除所述获取的待分类的文本中的噪声数据,其中,所述噪声数据包括:无用的信息和/或正文中的标点符号及特殊字符。3.根据权利要求2所述的文本自动分类方法,其特征在于,在剔除所述获取的待分类的文本中的噪声数据之后,所述方法还包括:对去除噪声数据的文本数据进行分词处理。4.根据权利要求3所述的文本自动分类方法,其特征在于,在对去除噪声数据的文本数据进行分词处理之后,所述方法还包括:根据文本数据的分词结果,对文本数据去停用词,其中,去掉的停用词为没有区分和预测能力的特征词。5.根据权利要求4所述的文本自动分类方法,其特征在于,在对文本数据去停用词之后,所述方法还包括:将去停用词后得到的特征词映射成为词表形式;计算特征词表中每个特征词的权值并记录在特征词表中,其中,所述特征词表包括文本、文本中的特征词与文本中每个特征词的权值之间的对应关系;根据得到的特征词表,将每个文本依次表示为特征向量的形式。6.根据权利要求5所述的文本自动分类方法,其特征在于,所述根据得...
【专利技术属性】
技术研发人员:张媛钰,阿孜古丽,谢永红,张德政,栗辉,李春苗,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。