文本分类方法、装置、设备及存储介质制造方法及图纸

技术编号:34339500 阅读:13 留言:0更新日期:2022-07-31 03:38
本发明专利技术涉及人工智能技术领域,公开了一种文本分类方法、装置、设备及存储介质,其中包括:利用文本分类模型的输入层从待分类文本数据中提取嵌入特征向量;利用卷积层进行卷积,得到每个预设维度对应的多个第一卷积特征向量,卷积层包括多个预设维度的卷积核;利用卷积核对应的权重参数对多个第一卷积特征向量进行敏感度优化计算,得到多个第二卷积特征向量;利用池化层选取每个第二卷积特征向量中的最大值并进行拼接,得到池化特征向量;利用文本分类模型的全连接层根据池化特征向量进行分类预测,得到文本分类结果。本发明专利技术通过对卷积层得到的向量进行敏感度优化,以致各维度卷积层增强对目标特征的敏感程度,使得最终分类结果更为准确。结果更为准确。结果更为准确。

Text classification method, device, equipment and storage medium

【技术实现步骤摘要】
文本分类方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,特别是涉及一种文本分类方法、装置、设备及存储介质。

技术介绍

[0002]随机计算机技术的高速发展,爆发式增长的网络数据对数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术,通过相应的技术和方法对文本的语义内容进行抽取,进而对文本进行分类聚类等一系列操作,其广泛应用于情感分析,智能客服,新闻归类,用户评论分析等场景等领域。
[0003]为了提高文本分析的智能化能力,由图像卷积CNN(Convolutional Neural Networks,卷积神经网络)算法演变而来了一种文本分类算法——TextCNN结构。CNN模型最开始被广泛应用于图像处理任务上,CNN模型后来经过研究发现在自然语言处理领域也行之有效,并在机器翻译,文本分类,搜索查询领域取得了不错的效果。而该TextCNN结构优势在于能够自动提取ngram特征,将重要的ngram给予较高的置信度权重,从而保证了较高的预测准确率,在中文这种以词为基本语义结构的文本中占据比较重要的地位。虽然在近几年,TextCNN预测的准确率略低于Transformer等诸多变体预训练模型,但TextCNN结构因其预测鲁棒性高,准确率较高,算法结构简单,可解释性较好,在小数据集上适应性较好等特点,仍在工业界被广泛应用。
[0004]TextCNN结构的分类高准确率的原因是其卷积层对重要ngram特征的提取能力,如果卷积核在卷积后得到的ngram特征的值越大,表示该卷积核对该ngram特征越敏感。而TextCNN结构分类出错的主要原因就是TextCNN结构的卷积核在抓取ngram特征时,无法准确抓取到自身敏感的ngram特征,导致最终分类预测不准确。

技术实现思路

[0005]本申请提供一种文本分类方法、装置、设备及存储介质,以解决现有的文本分类方法分类精确度不高的技术问题。
[0006]为解决上述技术问题,本申请采用的一个技术方案是:提供一种文本分类方法,包括:利用预先训练好的文本分类模型的输入层从待分类文本数据中提取得到嵌入特征向量;利用文本分类模型的卷积层对嵌入特征向量进行卷积,得到每个预设维度的卷积核对应的多个第一卷积特征向量,卷积层包括多个预设维度的卷积核;利用预先训练得到的每个预设维度对应的权重参数对多个第一卷积特征向量进行敏感度优化计算,得到多个第二卷积特征向量;利用文本分类模型的池化层选取每个第二卷积特征向量中的最大值并进行拼接,得到池化特征向量;利用文本分类模型的全连接层根据池化特征向量进行分类预测,得到文本分类结果。
[0007]作为本申请的进一步改进,预先训练文本分类模型,包括:获取样本数据并按照预设比例将样本数据划分为训练集和测试集;输入预先标注的训练集至待训练的文本分类模
型,利用文本分类模型的多个预设维度的卷积核进行卷积得到每个预设维度对应的多个第一样本卷积特征;基于每个预设维度的卷积核对应的待训练权重参数对多个第一样本卷积特征进行计算,得到多个第二样本卷积特征;利用文本分类模型的池化层和全连接层进行分类预测,得到样本预测结果;基于样本预测结果、多个第一样本卷积特征向量和预先构建的目标损失函数反向更新文本分类模型,目标损失函数包括采用多元交叉熵定义的第一损失函数和更新每个预设维度的卷积核对应的权重参数的第二损失函数;输入预先标注的测试集至训练完成的文本分类模型,且当文本分类模型达到预设预测精准度时,确认文本分类模型已训练好。
[0008]作为本申请的进一步改进,基于样本预测结果、多个第一样本卷积特征向量和预先构建的目标损失函数反向更新文本分类模型,包括:根据第一损失函数和样本分类结果对文本分类模型的各层待训练参数进行训练更新,以及根据第二损失函数对每个预设维度对应的待训练权重参数进行训练更新。
[0009]作为本申请的进一步改进,目标损失函数表示为:
[0010]Loss=loss1+loss2;
[0011][0012][0013]其中,loss表示目标损失函数,loss1表示第一损失函数,loss2表示第二损失函数,y
i
表示第i个样本数据的标签值,y

i
表示样本预测结果,a、b表示预先设置的超参数,x
i
表示第一样本卷积特征向量。
[0014]作为本申请的进一步改进,获取样本数据并按照预设比例将样本数据划分为训练集和测试集之后,还包括:
[0015]基于每个样本数据对应的真实分类结果对每个样本数据进行标注;
[0016]对预先标注的样本数据进行预处理。
[0017]作为本申请的进一步改进,对预先标注的样本数据进行预处理,包括:
[0018]对样本数据进行分词和去停用词处理;
[0019]统计每一样本数据的文本长度,并计算得到样本数据的平均长度,并结合平均长度截断过长的样本数据或补齐过短的文本数据。
[0020]作为本申请的进一步改进,文本分类模型基于TextCNN网络实现。
[0021]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种文本分类装置,包括:提取模块,用于利用预先训练好的文本分类模型的输入层从待分类文本数据中提取得到嵌入特征向量;卷积模块,用于利用文本分类模型的卷积层对嵌入特征向量进行卷积,得到每个预设维度对应的多个第一卷积特征向量,卷积层包括多个预设维度的卷积核;优化模块,用于利用预先训练得到的每个预设维度的卷积核对应的权重参数对多个第一卷积特征向量进行敏感度优化计算,得到多个第二卷积特征向量;池化模块,用于利用文本分类模型的池化层选取每个第二卷积特征向量中的最大值并进行拼接,得到池化特征向量;分类模块,用于利用文本分类模型的全连接层根据池化特征向量进行分类预测,得到文本分类结果。
[0022]为解决上述技术问题,本申请采用的再一个技术方案是:提供一种计算机设备,所
述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如上述中任一项的文本分类方法。
[0023]为解决上述技术问题,本申请采用的再一个技术方案是:提供一种计算机可读存储介质,计算机可读存储介质存储有能够实现上述文本分类方法的计算机程序。
[0024]本申请的有益效果是:本专利技术的文本分类方法基于TextCNN模型来实现,其通过首先进行特征提取,并得到特征向量后,对特征向量进行卷积,得到多个维度第一卷积特征向量,再利用预先训练好的权重参数对读第一卷积特征向量进行敏感度优化,提高卷积层中各个卷积核对自身敏感的特征数据的辨识度,使得卷积层能够准确的抓取目标特征,进而提升最终的预测准确率。
附图说明
[0025]图1是本专利技术实施例的文本分类方法的流程示意图;
[0026]图2是本专利技术实施例的文本分类方法的文本分类模型训练的流程示意图;
[0027]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:利用预先训练好的文本分类模型的输入层从待分类文本数据中提取得到嵌入特征向量;利用所述文本分类模型的卷积层对所述嵌入特征向量进行卷积,得到每个预设维度对应的多个第一卷积特征向量,所述卷积层包括多个预设维度的卷积核;利用预先训练得到的每个预设维度的卷积核对应的权重参数对所述多个第一卷积特征向量进行敏感度优化计算,得到多个第二卷积特征向量;利用所述文本分类模型的池化层选取每个第二卷积特征向量中的最大值并进行拼接,得到池化特征向量;利用所述文本分类模型的全连接层根据所述池化特征向量进行分类预测,得到文本分类结果。2.根据权利要求1所述的文本分类方法,其特征在于,预先训练所述文本分类模型,包括:获取样本数据并按照预设比例将所述样本数据划分为训练集和测试集;输入预先标注的训练集至待训练的文本分类模型,利用所述文本分类模型的多个预设维度的卷积核进行卷积得到每个预设维度对应的多个第一样本卷积特征;基于每个预设维度的卷积核对应的待训练权重参数对所述多个第一样本卷积特征进行计算,得到多个第二样本卷积特征;利用所述文本分类模型的池化层和全连接层进行分类预测,得到样本预测结果;基于所述样本预测结果、所述多个第一样本卷积特征向量和预先构建的目标损失函数反向更新所述文本分类模型,所述目标损失函数包括采用多元交叉熵定义的第一损失函数和更新每个预设维度的卷积核对应的权重参数的第二损失函数;输入预先标注的测试集至训练完成的文本分类模型,且当所述文本分类模型达到预设预测精准度时,确认所述文本分类模型已训练好。3.根据权利要求2所述的文本分类方法,其特征在于,所述基于所述样本预测结果、所述多个第一样本卷积特征向量和预先构建的目标损失函数反向更新所述文本分类模型,包括:根据所述第一损失函数和所述样本分类结果对所述文本分类模型的各层待训练参数进行训练更新,以及根据所述第二损失函数对每个预设维度对应的待训练权重参数进行训练更新。4.根据权利要求2所述的文本分类方法,其特征在于,所述目标损失函数表示为:Loss=loss1+loss2;;其中,Loss表示目标损失函数,loss1表示第一损失函数,loss2表示第二损失函数,y<...

【专利技术属性】
技术研发人员:刘羲舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1