一种文本分类方法及装置制造方法及图纸

技术编号：18289671 阅读：43 留言：0更新日期：2018-06-24 04:27

本发明专利技术提供一种文本分类方法及装置，在预先建立的CNN分类模型的基础上，改进了对卷积层的权重初始化的方式，具体为根据高斯分布对权重初始化，相较于现有基于CNN分类模型实现文本分类的方法，提高了分类结果的准确性。且相较于比较朴素贝叶斯，SVM等机器学习算法也提高了分类结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法及装置
本专利技术涉及分类
，尤其涉及一种文本分类方法及装置。
技术介绍
现有技术中实现文本分类的方法为：提取待分类文本的文本特征，并根据文本特征实现对待分类文本的分类。基于现有技术中公开的文本分类方法，在对新闻进行分类时，由于新闻属于长文本，在提取待分类的新闻的文本特征时，往往需要投入大量的人力和时间去设计有效的文本特征来帮助分类，费时又费力。而深度学习由于可以自动学习文本特征，因此可以解决对新闻这类长文本分类时文本特征提取困难的问题。在深度学习中常用的为卷积神经网络模型(CNN)。利用CNN模型实现文本分类的方法包括：对待分类的文本进行预处理，得到若干个句子；将每个句子输入训练好的CNN模型的卷积层和采样层，将采样层输出的结果输入到SVM分类器中，实现对文本的分类。但是，专利技术人发现现有基于CNN模型实现文本分类的方法中存在准确性低的问题。
技术实现思路
有鉴于此，本专利技术的目的在于提供一种文本分类方法及装置，以解决现有技术中基于CNN模型实现文本分类的方法中准确性低的问题。技术方案如下：本专利技术提供一种文本分类方法，包括：对待分类文本进行预处理，得到多个句子；将所述句子输入预先建立的CNN分类模型的输入层；提取所述句子的word2vec特征，获取输入矩阵；将所述输入矩阵输入卷积层，通过卷积操作提取特征；其中，所述卷积层的权重采用高斯分布参数值进行初始化；将所述特征输入分类器进行分类。优选地，所述对待分类文本进行预处理，得到多个句子包括：判断所述待分类文本的长度是否大于预设长度；判断所述待分类文本的长度大于预设长度，则将所述待分...
一种文本分类方法及装置

【技术保护点】
1.一种文本分类方法，其特征在于，包括：对待分类文本进行预处理，得到多个句子；将所述句子输入预先建立的CNN分类模型的输入层；提取所述句子的word2vec特征，获取输入矩阵；将所述输入矩阵输入卷积层，通过卷积操作提取特征；其中，所述卷积层的权重采用高斯分布参数值进行初始化；将所述特征输入分类器进行分类。

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：对待分类文本进行预处理，得到多个句子；将所述句子输入预先建立的CNN分类模型的输入层；提取所述句子的word2vec特征，获取输入矩阵；将所述输入矩阵输入卷积层，通过卷积操作提取特征；其中，所述卷积层的权重采用高斯分布参数值进行初始化；将所述特征输入分类器进行分类。2.根据权利要求1所述的文本分类方法，其特征在于，所述对待分类文本进行预处理，得到多个句子包括：判断所述待分类文本的长度是否大于预设长度；判断所述待分类文本的长度大于预设长度，则将所述待分类文本按照所述预设长度进行截断，得到多个句子；判断所述句子的长度是否小于预设长度；判断所述句子的长度小于预设长度，则按照所述待分类文本中包括的内容顺序拼接在所述句子的后面，直至拼接后形成的新句子的长度等于所述预设长度。3.根据权利要求1或2任一项所述的文本分类方法，其特征在于，所述CNN分类模型的训练方法包括：获取数据集以及未清洗数据；其中，所述未清洗数据中包括预设分类标记；利用所述数据集，对所述CNN分类模型进行初始训练；利用初始训练后的CNN分类模型对所述未清洗数据进行分类预测，得到所述未清洗数据的预测分类标记以及预测概率；判断所述未清洗数据的预测概率是否大于预设概率值；判断所述未清洗数据的预测概率大于预设概率值，则判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同；判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记不同，则将所述未清洗数据的预设分类标记修改为所述预测分类标记，得到清洗后的数据；利用所述清洗后的数据，训练所述CNN分类模型。4.根据权利要求3所述的文本分类方法，其特征在于，所述将所述未清洗数据的预设分类标记修改为所述预测分类标记包括：按照预设规则，从判断得到所述未清洗数据的预测分类标记与所述未清洗数据的预测分类标记不同的未清洗数据中，选择待处理的未清洗数据；将所述待处理的未清洗数据的预设分类标记修改为所述预测分类标记。5.根据权利要求3所述的文本分类方法，其特征在于，所述CNN分类模型的训练方法还包括：若训练样本的数量小于预设样本数量，则利用预先训练的CNN分类模型；利用所述训练样本，对所述预先训练的CNN分类模型进行训练。6.一种文本分类装置，其特征在于，包括：预处理单元，用于对待分类文本进行预处理，得到多个句子；输入单元，用于将所述句子输入预先建立的C...

【专利技术属性】
技术研发人员：陈嘉慧，刘海龙，郭亚南，
申请(专利权)人：北京搜狐新媒体信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人