文本分类方法、文本分类装置、系统及可读存储介质制造方法及图纸

技术编号:35907487 阅读:31 留言:0更新日期:2022-12-10 10:46
本发明专利技术提出了一种文本分类方法、文本分类装置、系统及可读存储介质。文本分类方法,包括:根据文本分类参数从多个预选分类模型中确定第一模型以及多个第二模型;根据第一文本数据对多个第二模型进行训练,并确定训练后的多个第二模型的多个输出数据;根据多个输出数据以及第一文本数据对第一模型进行训练;对训练后的第一模型进行优化处理,并对优化处理后的第一模型进行压缩处理;根据压缩后的第一模型对待分类文本进行文本分类处理;优化处理用于提升第一模型的训练程度。提升第一模型的训练程度。提升第一模型的训练程度。

【技术实现步骤摘要】
文本分类方法、文本分类装置、系统及可读存储介质


[0001]本专利技术涉及自然语言处理领域,具体而言,涉及一种文本分类方法、一种文本分类装置、一种文本分类系统以及一种可读存储介质。

技术介绍

[0002]在现有技术中,随着自然语言处理技术和知识蒸馏技术的不断进步,大型的文本分类模型在文本分类任务中广泛应用,而当处于搜索、推荐、对话等场景中时,需要对在场景中出现的文本数据进行分类,以使得场景中的任务顺利进行。而现有的文本分类模型在对上述场景中的文本进行分类时,主要存在以下问题:
[0003](1)当待分类的文本数据出现文本类别多、每个类别的文本数量较少的情况时,由于每个文本类别对应的特征信息不足,从而导致文本分类模型的分类效果降低;
[0004](2)文本分类效果较好的文本分类模型由于其模型参数较多,在具体的分类任务中,文本分类模型易出现冗余现象,进而影响模型在具体分类任务中的分类速度,同时增加了分类过程中资源的消耗量。

技术实现思路

[0005]本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。
[0006]为此,本专利技术的一个方面在于提出了一种文本分类方法。
[0007]本专利技术的另一个方面在于提出了一种文本分类装置。
[0008]本专利技术的再一个方面在于提出了一种文本分类系统。
[0009]本专利技术的又一个方面在于提出了一种可读存储介质。
[0010]有鉴于此,根据本专利技术的一个方面,提出了一种文本分类方法,包括:根据文本分类参数从多个预选分类模型中确定第一模型以及多个第二模型;根据第一文本数据对多个第二模型进行训练,并确定训练后的多个第二模型的多个输出数据;根据多个输出数据以及第一文本数据对第一模型进行训练;对训练后的第一模型进行优化处理,并对优化处理后的第一模型进行压缩处理;根据压缩后的第一模型对待分类文本进行文本分类处理;优化处理用于提升第一模型的训练程度。
[0011]本专利技术提供的文本分类方法,首先根据文本分类参数在多个预选分类模型中确定第一模型和多个第二模型,在确定好分类模型后,通过第一文本数据对多个第二模型进行训练,以得到与第一文本数据对应的多个第二模型的多个输出数据,并根据多个输出数据和第一文本数据训练第一模型,并对训练后的第一模型进行优化处理,以加深第一模型的训练程度,将优化后的第一模型进行压缩处理,以降低第一模型的参数数量,将压缩后的第一模型作为文本分类模型对文本分类任务中的文本数据进行分类处理。
[0012]具体地,第一模型可以是学生模型,第二模型可以是教师模型,本专利技术提供的文本分类方法,通过文本分类参数对第二模型进行选择,保证了选择到的第二模型的分类效果,进而更好的对第一模型进行训练;而第一模型通过多个第二模型训练,使得第一模型可以
学习到第二模型的分类经验,而不需重新进行大量多次的训练,提高了第一模型的文本分类能力,使其在文本数量少、文本类别多的时候依然具有优秀的分类效果,同时使得第一模型在不同的评测指标下具有同样优秀的分类效果;通过对训练后的第一模型进行优化处理,使得第一模型可以更好的对文本进行分类,降低了分类错误的概率,进一步提高了分类效果,通过对优化后的第一模型进行压缩处理,降低了模型的参数数量,从而避免了模型在具体分类场景中出现的冗余现象,在提高了模型在具体分类场景中的分类速度的同时,减少了执行文本分类任务时的资源消耗,提高了用户的使用体验。
[0013]根据本专利技术的上述文本分类方法,还可以具有以下技术特征:
[0014]在上述技术方案中,在根据第一文本数据对多个第二模型进行训练之前,还包括:为第一模型配置第一参数,以使第一模型根据第一参数、多个输出数据以及第一文本数据进行训练。
[0015]在该技术方案中,第一参数可以为超参数。在选择完第一模型和多个第二模型之后,为第一模型配置第一参数,通过为第一模型配置第一参数,增加了第一模型的训练性能与训练效果,进而提升了训练后的第一模型的文本分类效果。
[0016]在上述任一技术方案中,根据文本分类参数从多个预选分类模型中确定第一模型以及多个第二模型,具体包括:根据第二文本数据对多个预选分类模型中的每个预选分类模型进行训练;计算每个训练后的预选分类模型对应的文本分类参数;根据每个预选分类模型对应的文本分类参数的参数值,从多个预选分类模型中确定第一模型以及多个第二模型。
[0017]在该技术方案中,通过第二文本数据对每个预选分类模型进行训练,使得每个预选分类模型均是通过一个文本数据进行训练,保证了选择的公平性,同时,便于统计每个预选分类模型的文本分类参数;通过预选分类模型对应的文本分类参数,可以更直观的得到每个预选分类模型的分类效果,增加了对预选分类模型的分类效果判断的准确性;通过将文本分类参数的参数值作为第一模型以及多个第二模型的选择依据,保证了第一模型以及多个第二模型的分类效果,进而增加了第二模型对第一模型的训练效果。
[0018]在上述任一技术方案中,文本分类参数包括以下至少一种或其组合:准确率、精确率、召回率以及F1分数。
[0019]在该技术方案中,文本分类参数包括准确率、精确率、召回率以及F1分数中的一个或多个。其中,准确率用于表示在分类过程中,预测正确的结果占总分类样本的比例;精确率用于表示预测为正的分类样本中实际为正样本的比例;召回率用于表示实际为正的分类样本中被预测为正样本的比例;而F1分数则是对精确率以及召回率的调和均值,也就是说,F1分数兼顾了模型的精确率以及召回率。以上四类参数表示了模型具体的分类效果。
[0020]在上述任一技术方案中,对训练后的第一模型进行优化处理,具体包括:为第一文本数据配置第一预设函数,为多个第二输出数据配置多个第二预设函数;对第一预设函数配置第一权重,对多个第二预设函数配置第二权重;根据第一权重和第二权重对第一预设函数和多个第二预设函数进行加权求和处理,得到第一处理函数;根据第一处理函数对第一模型进行优化处理。
[0021]在该技术方案中,分别对第一文本数据和多个第二输出数据配置不同的预设函数,具体地,为第一文本数据配置第一预设函数,为多个第二输出数据配置第二预设函数;
随后,对不同的预设函数配置不同的权重,并对配置了权重的预设函数做加权求和处理,得到最终的第一处理函数,并通过第一处理函数对第一模型进行优化。
[0022]具体地,第一预设函数和第二预设函数均为损失函数,通过为第一文本数据和多个第二输出数据分别配置不同的损失函数,为不同的损失函数配置不同的权重,并根据损失函数自身的权重进行加权求和处理,将加权求和后的函数作为第一模型的损失函数,避免了第一模型在训练时由于误差梯度不断积累导致的梯度爆炸现象,确保了第一模型在运行时的稳定,进而提升了第一模型的训练效果以及第一模型本身的模型性能,从而实现了对第一模型的优化。
[0023]在上述任一技术方案中,在根据文本分类参数从多个预选分类模型中确定第一模型以及多个第二模型之后,还包括:为多个第二模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:根据文本分类参数从多个预选分类模型中确定第一模型以及多个第二模型;根据第一文本数据对所述多个第二模型进行训练,并确定训练后的所述多个第二模型的多个第二输出数据;根据多个所述第二输出数据以及所述第一文本数据对所述第一模型进行训练;对训练后的所述第一模型进行优化处理,并对优化处理后的所述第一模型进行压缩处理;根据压缩后的所述第一模型对待分类文本进行文本分类处理;所述优化处理用于提升所述第一模型的训练程度。2.根据权利要求1所述的文本分类方法,其特征在于,在所述根据第一文本数据对所述多个第二模型进行训练之前,还包括:为所述第一模型配置第一参数,以使所述第一模型根据所述第一参数、所述多个所述输出数据以及所述第一文本数据进行训练。3.根据权利要求1所述的文本分类方法,其特征在于,所述根据文本分类参数从多个预选分类模型中确定第一模型以及多个第二模型,具体包括:根据第二文本数据对所述多个预选分类模型中的每个预选分类模型进行训练;计算每个训练后的所述预选分类模型对应的所述文本分类参数;根据所述每个预选分类模型对应的文本分类参数的参数值,从所述多个预选分类模型中确定所述第一模型以及所述多个第二模型。4.根据权利要求3所述的文本分类方法,其特征在于,所述文本分类参数包括以下至少一种或其组合:准确率、精确率、召回率以及F1分数。5.根据权利要求1至4中任一项所述的文本分类方法,其特征在于,所述对训练后的所述第一模型进行优化处理,具体包括:为所述第一文本数据配置第一预设函数,为多个所述第二输出数据配置多个第二预设函数;对所述第一预设函数配置第一权重,对...

【专利技术属性】
技术研发人员:陈超任欣源詹宇斌张雷瀚何鑫方高林何冠宇
申请(专利权)人:用友网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1