一种文本分类方法及装置制造方法及图纸

技术编号:18289671 阅读:43 留言:0更新日期:2018-06-24 04:27
本发明专利技术提供一种文本分类方法及装置,在预先建立的CNN分类模型的基础上,改进了对卷积层的权重初始化的方式,具体为根据高斯分布对权重初始化,相较于现有基于CNN分类模型实现文本分类的方法,提高了分类结果的准确性。且相较于比较朴素贝叶斯,SVM等机器学习算法也提高了分类结果的准确性。

【技术实现步骤摘要】
一种文本分类方法及装置
本专利技术涉及分类
,尤其涉及一种文本分类方法及装置。
技术介绍
现有技术中实现文本分类的方法为:提取待分类文本的文本特征,并根据文本特征实现对待分类文本的分类。基于现有技术中公开的文本分类方法,在对新闻进行分类时,由于新闻属于长文本,在提取待分类的新闻的文本特征时,往往需要投入大量的人力和时间去设计有效的文本特征来帮助分类,费时又费力。而深度学习由于可以自动学习文本特征,因此可以解决对新闻这类长文本分类时文本特征提取困难的问题。在深度学习中常用的为卷积神经网络模型(CNN)。利用CNN模型实现文本分类的方法包括:对待分类的文本进行预处理,得到若干个句子;将每个句子输入训练好的CNN模型的卷积层和采样层,将采样层输出的结果输入到SVM分类器中,实现对文本的分类。但是,专利技术人发现现有基于CNN模型实现文本分类的方法中存在准确性低的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种文本分类方法及装置,以解决现有技术中基于CNN模型实现文本分类的方法中准确性低的问题。技术方案如下:本专利技术提供一种文本分类方法,包括:对待分类文本进行预处理,得到多个句子;将所述句子输入预先建立的CNN分类模型的输入层;提取所述句子的word2vec特征,获取输入矩阵;将所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;将所述特征输入分类器进行分类。优选地,所述对待分类文本进行预处理,得到多个句子包括:判断所述待分类文本的长度是否大于预设长度;判断所述待分类文本的长度大于预设长度,则将所述待分类文本按照所述预设长度进行截断,得到多个句子;判断所述句子的长度是否小于预设长度;判断所述句子的长度小于预设长度,则按照所述待分类文本中包括的内容顺序拼接在所述句子的后面,直至拼接后形成的新句子的长度等于所述预设长度。优选地,所述CNN分类模型的训练方法包括:获取数据集以及未清洗数据;其中,所述未清洗数据中包括预设分类标记;利用所述数据集,对所述CNN分类模型进行初始训练;利用初始训练后的CNN分类模型对所述未清洗数据进行分类预测,得到所述未清洗数据的预测分类标记以及预测概率;判断所述未清洗数据的预测概率是否大于预设概率值;判断所述未清洗数据的预测概率大于预设概率值,则判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同;判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记不同,则将所述未清洗数据的预设分类标记修改为所述预测分类标记,得到清洗后的数据;利用所述清洗后的数据,训练所述CNN分类模型。优选地,所述将所述未清洗数据的预设分类标记修改为所述预测分类标记包括:按照预设规则,从判断得到所述未清洗数据的预测分类标记与所述未清洗数据的预测分类标记不同的未清洗数据中,选择待处理的未清洗数据;将所述待处理的未清洗数据的预设分类标记修改为所述预测分类标记。优选地,所述CNN分类模型的训练方法还包括:若训练样本的数量小于预设样本数量,则利用预先训练的CNN分类模型;利用所述训练样本,对所述预先训练的CNN分类模型进行训练。本专利技术还提供了一种文本分类装置,包括:预处理单元,用于对待分类文本进行预处理,得到多个句子;输入单元,用于将所述句子输入预先建立的CNN分类模型的输入层;第一处理单元,用于提取所述句子的word2vec特征,获取输入矩阵;第二处理单元,用于将所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;分类单元,用于将所述特征输入分类器进行分类。优选地,所述预处理单元包括:第一判断单元,用于判断所述待分类文本的长度是否大于预设长度;截断单元,用于当所述第一判断单元判断所述待分类文本的长度大于预设长度时,将所述待分类文本按照所述预设长度进行截断,得到多个句子;第二判断单元,用于判断所述句子的长度是否小于预设长度;拼接单元,用于当所述第二判断单元判断所述句子的长度小于预设长度时,按照所述待分类文本中包括的内容顺序拼接在所述句子的后面,直至拼接后形成的新句子的长度等于所述预设长度。优选地,还包括:获取单元,用于获取数据集以及未清洗数据;其中,所述未清洗数据中包括预设分类标记;训练单元,用于利用所述数据集,对所述CNN分类模型进行初始训练;预测单元,用于利用初始训练后的CNN分类模型对所述未清洗数据进行分类预测,得到所述未清洗数据的预测分类标记以及预测概率;第三判断单元,用于判断所述未清洗数据的预测概率是否大于预设概率值;第四判断单元,用于当所述第三判断单元判断所述未清洗数据的预测概率大于预设概率值时,判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同;修改单元,用于当所述第四判断单元判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记不同时,将所述未清洗数据的预设分类标记修改为所述预测分类标记,得到清洗后的数据;所述训练单元,还用于利用所述清洗后的数据,训练所述CNN分类模型。优选地,所述修改单元包括:选择子单元,用于按照预设规则,从判断得到所述未清洗数据的预测分类标记与所述未清洗数据的预测分类标记不同的未清洗数据中,选择待处理的未清洗数据;修改子单元,用于将所述待处理的未清洗数据的预设分类标记修改为所述预测分类标记。优选地,还包括:复用单元,用于若训练样本的数量小于预设样本数量,则复用预先训练的CNN分类模型;所述训练单元还用于利用所述训练样本,对所述预先训练的CNN分类模型进行训练。与现有技术相比,本专利技术提供的上述技术方案具有如下优点:从上述技术方案可知,本申请中在预先建立的CNN分类模型的基础上,改进了对卷积层的权重初始化的方式,具体为根据高斯分布对权重初始化,相较于现有基于CNN分类模型实现文本分类的方法,提高了分类结果的准确性。且相较于比较朴素贝叶斯,SVM等机器学习算法也提高了分类结果的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种文本分类方法的流程图;图2是本专利技术实施例提供的另一种文本分类方法的流程图;图3是本专利技术实施例提供的CNN分类模型的训练方法的流程图;图4是利用本专利技术实施例提供的一种文本分类装置的结构示意图;图5是利用本专利技术实施例提供的另一种文本分类装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例公开了一种文本分类方法,应用在长文本分类的场景中,例如,新闻分类的场景,参见图1,该实施例包括以下步骤:S101、对待分类文本进行预处理,得到多个句子;待分类文本是长文本时,需要先将待分类文本截断为多个预设长本文档来自技高网...
一种文本分类方法及装置

【技术保护点】
1.一种文本分类方法,其特征在于,包括:对待分类文本进行预处理,得到多个句子;将所述句子输入预先建立的CNN分类模型的输入层;提取所述句子的word2vec特征,获取输入矩阵;将所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;将所述特征输入分类器进行分类。

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:对待分类文本进行预处理,得到多个句子;将所述句子输入预先建立的CNN分类模型的输入层;提取所述句子的word2vec特征,获取输入矩阵;将所述输入矩阵输入卷积层,通过卷积操作提取特征;其中,所述卷积层的权重采用高斯分布参数值进行初始化;将所述特征输入分类器进行分类。2.根据权利要求1所述的文本分类方法,其特征在于,所述对待分类文本进行预处理,得到多个句子包括:判断所述待分类文本的长度是否大于预设长度;判断所述待分类文本的长度大于预设长度,则将所述待分类文本按照所述预设长度进行截断,得到多个句子;判断所述句子的长度是否小于预设长度;判断所述句子的长度小于预设长度,则按照所述待分类文本中包括的内容顺序拼接在所述句子的后面,直至拼接后形成的新句子的长度等于所述预设长度。3.根据权利要求1或2任一项所述的文本分类方法,其特征在于,所述CNN分类模型的训练方法包括:获取数据集以及未清洗数据;其中,所述未清洗数据中包括预设分类标记;利用所述数据集,对所述CNN分类模型进行初始训练;利用初始训练后的CNN分类模型对所述未清洗数据进行分类预测,得到所述未清洗数据的预测分类标记以及预测概率;判断所述未清洗数据的预测概率是否大于预设概率值;判断所述未清洗数据的预测概率大于预设概率值,则判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记是否相同;判断所述未清洗数据的预测分类标记与所述未清洗数据的预设分类标记不同,则将所述未清洗数据的预设分类标记修改为所述预测分类标记,得到清洗后的数据;利用所述清洗后的数据,训练所述CNN分类模型。4.根据权利要求3所述的文本分类方法,其特征在于,所述将所述未清洗数据的预设分类标记修改为所述预测分类标记包括:按照预设规则,从判断得到所述未清洗数据的预测分类标记与所述未清洗数据的预测分类标记不同的未清洗数据中,选择待处理的未清洗数据;将所述待处理的未清洗数据的预设分类标记修改为所述预测分类标记。5.根据权利要求3所述的文本分类方法,其特征在于,所述CNN分类模型的训练方法还包括:若训练样本的数量小于预设样本数量,则利用预先训练的CNN分类模型;利用所述训练样本,对所述预先训练的CNN分类模型进行训练。6.一种文本分类装置,其特征在于,包括:预处理单元,用于对待分类文本进行预处理,得到多个句子;输入单元,用于将所述句子输入预先建立的C...

【专利技术属性】
技术研发人员:陈嘉慧刘海龙郭亚南
申请(专利权)人:北京搜狐新媒体信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1