文本分类方法、装置、设备及存储介质制造方法及图纸

技术编号：34339500 阅读：13 留言：0更新日期：2022-07-31 03:38

本发明专利技术涉及人工智能技术领域，公开了一种文本分类方法、装置、设备及存储介质，其中包括：利用文本分类模型的输入层从待分类文本数据中提取嵌入特征向量；利用卷积层进行卷积，得到每个预设维度对应的多个第一卷积特征向量，卷积层包括多个预设维度的卷积核；利用卷积核对应的权重参数对多个第一卷积特征向量进行敏感度优化计算，得到多个第二卷积特征向量；利用池化层选取每个第二卷积特征向量中的最大值并进行拼接，得到池化特征向量；利用文本分类模型的全连接层根据池化特征向量进行分类预测，得到文本分类结果。本发明专利技术通过对卷积层得到的向量进行敏感度优化，以致各维度卷积层增强对目标特征的敏感程度，使得最终分类结果更为准确。结果更为准确。结果更为准确。

Text classification method, device, equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
文本分类方法、装置、设备及存储介质

[0001]本申请涉及自然语言处理
，特别是涉及一种文本分类方法、装置、设备及存储介质。

技术介绍

[0002]随机计算机技术的高速发展，爆发式增长的网络数据对数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的一项技术，通过相应的技术和方法对文本的语义内容进行抽取，进而对文本进行分类聚类等一系列操作，其广泛应用于情感分析，智能客服，新闻归类，用户评论分析等场景等领域。
[0003]为了提高文本分析的智能化能力，由图像卷积CNN(Convolutional Neural Networks，卷积神经网络)算法演变而来了一种文本分类算法——TextCNN结构。CNN模型最开始被广泛应用于图像处理任务上，CNN模型后来经过研究发现在自然语言处理领域也行之有效，并在机器翻译，文本分类，搜索查询领域取得了不错的效果。而该TextCNN结构优势在于能够自动提取ngram特征，将重要的ngram给予较高的置信度权重，从而保证了较高的预测准确率，在中文这种以词为基本语义结构的文本中占据比较重要的地位。虽然在近几年，TextCNN预测的准确率略低于Transformer等诸多变体预训练模型，但TextCNN结构因其预测鲁棒性高，准确率较高，算法结构简单，可解释性较好，在小数据集上适应性较好等特点，仍在工业界被广泛应用。
[0004]TextCNN结构的分类高准确率的原因是其卷积层对重要ngram特征的提取能力，如果卷积核在卷积后得到的ngram特征的值越大，表...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，所述方法包括：利用预先训练好的文本分类模型的输入层从待分类文本数据中提取得到嵌入特征向量；利用所述文本分类模型的卷积层对所述嵌入特征向量进行卷积，得到每个预设维度对应的多个第一卷积特征向量，所述卷积层包括多个预设维度的卷积核；利用预先训练得到的每个预设维度的卷积核对应的权重参数对所述多个第一卷积特征向量进行敏感度优化计算，得到多个第二卷积特征向量；利用所述文本分类模型的池化层选取每个第二卷积特征向量中的最大值并进行拼接，得到池化特征向量；利用所述文本分类模型的全连接层根据所述池化特征向量进行分类预测，得到文本分类结果。2.根据权利要求1所述的文本分类方法，其特征在于，预先训练所述文本分类模型，包括：获取样本数据并按照预设比例将所述样本数据划分为训练集和测试集；输入预先标注的训练集至待训练的文本分类模型，利用所述文本分类模型的多个预设维度的卷积核进行卷积得到每个预设维度对应的多个第一样本卷积特征；基于每个预设维度的卷积核对应的待训练权重参数对所述多个第一样本卷积特征进行计算，得到多个第二样本卷积特征；利用所述文本分类模型的池化层和全连接层进行分类预测，得到样本预测结果；基于所述样本预测结果、所述多个第一样本卷积特征向量和预先构建的目标损失函数反向更新所述文本分类模型，所述目标损失函数包括采用多元交叉熵定义的第一损失函数和更新每个预设维度的卷积核对应的权重参数的第二损失函数；输入预先标注的测试集至训练完成的文本分类模型，且当所述文本分类模型达到预设预测精准度时，确认所述文本分类模型已训练好。3.根据权利要求2所述的文本分类方法，其特征在于，所述基于所述样本预测结果、所述多个第一样本卷积特征向量和预先构建的目标损失函数反向更新所述文本分类模型，包括：根据所述第一损失函数和所述样本分类结果对所述文本分类模型的各层待训练参数进行训练更新，以及根据所述第二损失函数对每个预设维度对应的待训练权重参数进行训练更新。4.根据权利要求2所述的文本分类方法，其特征在于，所述目标损失函数表示为：Loss＝loss1+loss2；；其中，Loss表示目标损失函数，loss1表示第一损失函数，loss2表示第二损失函数，y<...

【专利技术属性】
技术研发人员：刘羲，舒畅，陈又新，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人