一种文本分类方法、装置、存储介质以及电子设备制造方法及图纸

技术编号：38258470 阅读：8 留言：0更新日期：2023-07-27 10:20

本申请涉及智慧医疗、人工智能以及金融技术领域，公开了一种文本分类方法、装置、存储介质以及电子设备。其中，方法包括：获取若干训练样本数据；基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练，生成初始文本分类模型；基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练，生成目标文本分类模型；基于所述目标文本分类模型对待分类文本进行分类处理，得到与所述待分类文本对应的目标文本类别。本申请的文本分类方法可以提高文本分类效率，提高文本分类准确度。确度。确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法、装置、存储介质以及电子设备

[0001]本专利技术涉及金融技术、人工智能以及金融
，特别涉及一种文本分类方法、装置、存储介质以及电子设备。

技术介绍

[0002]在实际的生产工作中，遇到的很多任务在数据集标签分布方面并不平衡，即某一类标签在数据集中占据了较高的比例。会造成训练效率低下，因为大多数样本都是简单的目标，这些样本在训练中提供给模型不太有用的信息；也会因为简单的样本数量上的极大优势会搞垮训练，使模型性能退化。目前，常见的解决这些问题的方法有执行某种形式的困难样本挖掘，实现方式就是在训练时选取困难样本或使用更复杂的采样，以及重新对样本加权等方案。针对具体的文本分类问题，可以在数据增强时针对样本不足的数据生成更多内容以补充原有数据的不足。传统的focal loss则是根据数据比例，在训练过程中针对不同类别的标签，在计算loss时给予不同的权重，让比例低的数据获取更高的loss权重从而让模型着重学习这一部分。但在实际使用中，单纯的增广数据并不能带来模型性能的提升，因为生成数据都是基于原始小量种子数据，不会发生太大的变动；而单纯根据数据分布比例基于不同权重并不能保证模型将注意力集中到正确的标签上，使得文本分类不够精准。

技术实现思路

[0003]有鉴于此，本专利技术提供了一种文本分类方法、装置、存储介质以及电子设备，主要目的在于解决目前存在文本分类不精准的问题。
[0004]为解决上述问题，本申请提供一种文本分类方法，包括：
[0005]获取若干训练样本数据；<...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法，其特征在于，包括：获取若干训练样本数据；基于各所述训练样本数据以及预设第一损失函数对预设模型进行训练，生成初始文本分类模型；基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练，生成目标文本分类模型；基于所述目标文本分类模型对待分类文本进行分类处理，得到与所述待分类文本对应的目标文本类别。2.如权利要求1所述的方法，其特征在于，所述基于各所述测试样本数据以及预设第一损失函数对预设模型进行训练，生成初始文本分类模型，具体包括：基于各所述训练样本数据采用所述预设模型进行数据处理，获得与各所述训练样本数据对应的第一预测标签数据；基于各所述训练样本数据携带的初始标签数据、各所述第一预测标签数据以及第一预设损失函数对所述预设模型进行训练，生成所述初始文本分类模型。3.如权利要求2所述的方法，其特征在于，所述基于各所述测试样本数据携带的初始标签数据、各所述预测标签数据以及第一预设损失函数对所述预设模型进行训练，生成所述初始文本分类模型，具体包括：基于所述初始标签数据以及与各所述初始标签数据对应的预测标签数据进行计算处理，得到当前模型的第一准确率以及第一损失值；当所述第一准确率超过第一预设阈值和/或第一损失值小于第二预设阈值时，得到所述初始文本分类模型。4.如权利要求1所述的方法，其特征在于，所述基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练，生成目标文本分类模型，具体包括：基于各所述训练样本数据以及所述初始文本分类模型，获得与各所述预设类别分别对应的第二准确率；基于目标预设类别对应的平均离散程度以及第二准确率计算获得与目标预设类别对应的初始权重值；基于各所述第二准确率以及各所述初始权重值，采用预设第二损失函数进行损失值计算处理，获得初始文本分类模型对应的第二损失值；基于所述第二损失值进行判断；基于所述判断结果获得所述目标文本分类模型。5.如权利要求4所述的方法，其特征在于，在所基于各所述训练样本数据以及预设第二损失函数对所述初始文本分类模型进行训练，生成目标文本分类模型之前，所述方法还包括：对各所述训练样本数据进行文本语义聚类处理，获得各所述训练样本对应的离散度；基于各所述离散度计算获得...

【专利技术属性】
技术研发人员：侯昶宇，王俊，王晓锐，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人