一种文本分类方法、系统、电子设备及存储介质技术方案

技术编号:34177010 阅读:50 留言:0更新日期:2022-07-17 12:10
本申请公开了一种文本分类方法,获取内容文本和多个类别选项,将所述内容文本和每一所述类别选项进行组合得到多个输入样本;将所有所述输入样本划分为多个样本组,分批次将所述样本组输入自回归预训练语言模型进行模型训练;将待分类文本输入训练后的自回归预训练语言模型,得到所述待分类文本的文本类别。本申请能够降低文本分类过程对显存空间的占用。本申请还公开了一种文本分类系统、一种存储介质及一种电子设备,具有以上有益效果。具有以上有益效果。具有以上有益效果。

【技术实现步骤摘要】
一种文本分类方法、系统、电子设备及存储介质


[0001]本申请涉及文本处理领域,特别涉及一种文本分类方法、系统、电子设备及存储介质。

技术介绍

[0002]在文本分类场景中,需要使用具有高准确率的自回归预训练语言模型。本领域中通常使用大量的语料使自回归预训练语言模型进行自监督学习,然后再根据不同的下游任务对自回归预训练语言模型的模型参数进行更新,使自回归预训练语言模型能够在各个下游任务中取得更好的识别效果。
[0003]在使用语言模型进行下游任务的调优的过程中,通常采用的方法是在已有自回归预训练语言模型的基础上将最后的嵌入层用线性层替换。若使用上述方案更新的自回归预训练语言模型,在处理的分类数目较大的时,每次输入到模型的样本数量与分类数成线性关系,将会导致显存空间无法满足产生的中间结果的存储需求,进而出现显存空间不足的问题。
[0004]因此,如何降低文本分类过程对显存空间的占用是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0005]本申请的目的是提供一种文本分类方法、一种文本分类系统、一种电子设备及一种电子设备,能够降低文本分类过程对显存空间的占用。
[0006]为解决上述技术问题,本申请提供一种文本分类方法,该文本分类方法包括:
[0007]获取内容文本和多个类别选项,将所述内容文本和每一所述类别选项进行组合得到多个输入样本;
[0008]将所有所述输入样本划分为多个样本组,分批次将所述样本组输入自回归预训练语言模型进行模型训练;
[0009]将待分类文本输入训练后的自回归预训练语言模型,得到所述待分类文本的文本类别。
[0010]可选的,将所有所述输入样本划分为多个样本组,包括:
[0011]根据显存容量确定预设样本数量;其中,所述显存容量与所述预设样本数量正相关;
[0012]按照所述预设样本数量将所有所述输入样本划分为多个所述样本组;其中,每一所述样本组中包含的所述输入样本的数量小于或等于所述预设样本数量。
[0013]可选的,所述分批次将所述样本组输入自回归预训练语言模型进行模型训练,包括:
[0014]确定当前批次对应的目标样本组;
[0015]将所述目标样本组输入所述自回归预训练语言模型进行前向传播计算和反向传
播计算,以便更新所述自回归预训练语言模型的参数。
[0016]可选的,将所述目标样本组输入所述自回归预训练语言模型进行前向传播计算和反向传播计算,包括:
[0017]将所述目标样本组输入所述自回归预训练语言模型进行前向传播计算,并在Transformer层保存前向传播计算得到的中间结果;
[0018]对所有所述中间结果进行聚合操作的到的概率信息;其中,所述概率信息包括所述内容文本的文本类别为每一所述类别选项的概率;
[0019]根据所述概率信息和所述内容文本的标签计算损失函数值;
[0020]利用所述损失函数值进行反向传播计算。
[0021]可选的,所述Transformer层包括自注意力层和前向传播层。
[0022]可选的,所述分批次将所述样本组输入自回归预训练语言模型进行模型训练,包括:
[0023]通过流水线计算的方式分批次将所述样本组输入自回归预训练语言模型进行模型训练。
[0024]本申请还提供了一种文本分类系统,包括:
[0025]样本生成模块,用于获取内容文本和多个类别选项,将所述内容文本和每一所述类别选项进行组合得到多个输入样本;
[0026]模型训练模块,用于将所有所述输入样本划分为多个样本组,分批次将所述样本组输入自回归预训练语言模型进行模型训练;
[0027]分类模块,用于将待分类文本输入训练后的自回归预训练语言模型,得到所述待分类文本的文本类别。
[0028]进一步的,所述模型训练模块用于根据显存容量确定预设样本数量;其中,所述显存容量与所述预设样本数量正相关;还用于按照所述预设样本数量将所有所述输入样本划分为多个所述样本组;其中,每一所述样本组中包含的所述输入样本的数量小于或等于所述预设样本数量。
[0029]本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文本分类方法执行的步骤。
[0030]本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述文本分类方法执行的步骤。
[0031]本申请提供了一种文本分类方法,包括:获取内容文本和多个类别选项,将所述内容文本和每一所述类别选项进行组合得到多个输入样本;将所有所述输入样本划分为多个样本组,分批次将所述样本组输入自回归预训练语言模型进行模型训练;将待分类文本输入训练后的自回归预训练语言模型,得到所述待分类文本的文本类别。
[0032]本申请将内容文本和类别选项进行组合得到多个输入样本,通过将所有的输入样本进行划分可以得到多个样本组。本申请分批次将样本组输入自回归预训练语言模型进行模型训练,训练完毕后可以利用自回归预训练语言模型去顶待分类文本的文本类别。本申请分批次输入样本组,而不是将所有的样本组一起输入进行训练,能够降低文本分类过程对显存空间的占用。本申请同时还提供了一种文本分类系统、一种电子设备和一种存储介
质,具有上述有益效果,在此不再赘述。
附图说明
[0033]为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1为本申请实施例所提供的一种文本分类方法的流程图;
[0035]图2为本申请实施例所提供的一种自回归预训练语言模型的修改对照示意图;
[0036]图3为本申请实施例所提供的一种流水线计算示意图;
[0037]图4为本申请实施例所提供的一种文本分类系统的结构示意图。
具体实施方式
[0038]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0039]下面请参见图1,图1为本申请实施例所提供的一种文本分类方法的流程图。
[0040]具体步骤可以包括:
[0041]S101:获取内容文本和多个类别选项,将所述内容文本和每一所述类别选项进行组合得到多个输入样本;
[0042]其中,本实施例可以应用于文本分类装置,以便对待分类文本进行分类;例如,判断某一段文字是否为体育、音乐或新闻类的文本。在本步骤之前,可以从样本集中获取内容文本,以及该内容文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取内容文本和多个类别选项,将所述内容文本和每一所述类别选项进行组合得到多个输入样本;将所有所述输入样本划分为多个样本组,分批次将所述样本组输入自回归预训练语言模型进行模型训练;将待分类文本输入训练后的自回归预训练语言模型,得到所述待分类文本的文本类别。2.根据权利要求1所述文本分类方法,其特征在于,将所有所述输入样本划分为多个样本组,包括:根据显存容量确定预设样本数量;其中,所述显存容量与所述预设样本数量正相关;按照所述预设样本数量将所有所述输入样本划分为多个所述样本组;其中,每一所述样本组中包含的所述输入样本的数量小于或等于所述预设样本数量。3.根据权利要求1所述文本分类方法,其特征在于,所述分批次将所述样本组输入自回归预训练语言模型进行模型训练,包括:确定当前批次对应的目标样本组;将所述目标样本组输入所述自回归预训练语言模型进行前向传播计算和反向传播计算,以便更新所述自回归预训练语言模型的参数。4.根据权利要求3所述文本分类方法,其特征在于,将所述目标样本组输入所述自回归预训练语言模型进行前向传播计算和反向传播计算,包括:将所述目标样本组输入所述自回归预训练语言模型进行前向传播计算,并在Transformer层保存前向传播计算得到的中间结果;对所有所述中间结果进行聚合操作的到的概率信息;其中,所述概率信息包括所述内容文本的文本类别为每一所述类别选项的概率;根据所述概率信息和所述内容文本的标签计算损失函数值;利用所述损失函数值进行...

【专利技术属性】
技术研发人员:赵旭东
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1