文本分类方法及装置、设备及介质制造方法及图纸

技术编号:27277200 阅读:18 留言:0更新日期:2021-02-06 11:43
本发明专利技术实施例提供的一种文本分类方法及装置、设备及介质,该方法包括:获取待分类文本;将所述待分类文本输入到Student集成模型,得到所述待分类文本的分类结果;其中,所述Student集成模型包括:N种Student模型,N种所述Student模型为各不相同的神经网络模型通过Teacher模型蒸馏得到的,在进行文本分类时,使用Student集成模型,而Student集成模型包括N种Student模型,从而能够基于不同算法的差异性,充分发挥各个模型优势,进而在节省计算资源的同时,提高分类模型预测的准确度。提高分类模型预测的准确度。提高分类模型预测的准确度。

【技术实现步骤摘要】
文本分类方法及装置、设备及介质


[0001]本专利技术涉及自然语言处理
,尤其涉及文本分类方法及装置、设备及介质。

技术介绍

[0002]深度学习在这几年的发展可谓是突飞猛进,为了提升模型性能,模型的参数量也变得越来越多,模型自身也变得越来越大。在自然语言处理领域(NLP)领域,BERT,GPT等超大模型的诞生也紧随其后。这些大型模型在准确率上大部分都比小参数模型要好,可是它们在部署阶段,往往需要占用巨大内存资源,同时运行起来也极其耗时,往往与工业界要求低资源、低延时的思想背道而驰,所以很多在学术界呼风唤雨的强大模型在企业的运用过程中却没有那么顺风顺水。
[0003]为解决上述问题,需要将参数量巨大的模型,压缩成小参数量模型,这样就可以在不失精度的情况下,使得模型占用资源少,运行快,所以如何将这些大模型压缩,同时保持住顶尖的准确率,成了学术界一个专门的研究领域。蒸馏,就是知识蒸馏,将教师网络(teacher network)的知识迁移到学生网络(student network)上,使得学生网络的性能表现如教师网络一般。这样学习来的小网络可以具备和大的复杂网络想接近的性能效果,并且也大大的节省了计算资源。这个复杂的网络可以看成一个教师,而小的网络则可以看成是一个学生。我们就可以愉快地将学生网络部署到移动手机和其它边缘设备上。
[0004]因此,如何在进行文本分类时,能够在节省计算资源的同时,提高分类模型预测的准确度是本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]本专利技术实施例提供一种文本分类方法及装置、设备及介质,在进行文本分类时,能够在节省计算资源的同时,提高分类模型预测的准确度。
[0006]第一方面,本专利技术实施例提供一种文本分类方法,包括:
[0007]获取待分类文本;
[0008]将所述待分类文本输入到Student集成模型,得到所述待分类文本的分类结果;
[0009]其中,所述Student集成模型包括:N种Student模型,N种所述Student模型为各不相同的神经网络模型通过Teacher模型蒸馏得到的。
[0010]进一步地,当所述Teacher模型对N种所述Student模型进行的蒸馏时,N种所述Student模型的损失函数均为:
[0011]Loss=T*Mse(s,t)+a*Crossentropy(s,y);
[0012]其中,Loss为目标损失函数值,s为N种Student模型各自输出logits值;t为所述Teacher模型输出的logits值;T、a均为权重系数;y为进行蒸馏时的样本的真实标签。
[0013]进一步地,T=2,a=1。
[0014]进一步地,所述Student集成模型输出的结果为N种所述Student模型加权得到的。
[0015]进一步地,N种所述Student模型包括:BILSTM分类模型、TEXTCNN分类模型以及
RCNN分类模型中的至少两种。
[0016]进一步地,所述将所述待分类文本输入到Student集成模型,得到所述待分类文本的分类结果,包括:
[0017]根据N种所述Student模型的预设权值,对N种所述Student模型对应的分类结果进行加权求和,得到所述Student集成模型的综合权值;
[0018]依据所述综合权值确定所述Student集成模型对所述待分类文本的分类结果。
[0019]进一步地,N种所述Student模型的预设权值是根据N种所述Student模型在不同的文本种类下的分类精确度确定的;
[0020]N种所述Student模型的预设权值在不同的文本种类下的具体值是不同的。
[0021]第二方面,本专利技术实施例提供一种文本分类装置,包括:
[0022]文本获取模块,用于获取待分类文本;
[0023]结果得到模块,用于将所述待分类文本输入到Student集成模型,得到所述待分类文本的分类结果;
[0024]其中,所述Student集成模型包括:N种Student模型,N种所述Student模型为各不相同的神经网络模型通过Teacher模型蒸馏得到的。
[0025]第三方面,本专利技术实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本分类方法的步骤。
[0026]第四方面,本专利技术实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本分类方法的步骤。
[0027]本专利技术实施例提供的一种文本分类方法及装置、设备及介质,在进行文本分类时,使用Student集成模型,而Student集成模型包括N种Student模型,N种所述Student模型为各不相同的神经网络模型通过Teacher模型蒸馏得到的,从而能够基于不同算法的差异性,充分发挥各个模型优势,进而在节省计算资源的同时,提高分类模型预测的准确度。
附图说明
[0028]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1为本专利技术实施例提供的一种文本分类方法的流程图;
[0030]图2为本专利技术实施例提供的一种文本分类方法的Student集成模型的蒸馏示意图;
[0031]图3为本专利技术实施例使用的文本分类的数据集图例;
[0032]图4为本专利技术实施例使用的文本分类的数据类别图例;
[0033]图5为本专利技术实施例使用的Teacher模型的训练流程图;
[0034]图6为本专利技术实施例使用的Student模型的训练流程图;
[0035]图7为本专利技术实施例提供的一种文本分类方法的Student集成模型的蒸馏流程图;
[0036]图8为本专利技术实施例提供的一种文本分类装置的组成结构示意图;
[0037]图9为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0038]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]下面结合图1-图2描述本专利技术实施例的文本分类方法。图1为本专利技术实施例提供的一种文本分类方法的流程图;图2为本专利技术实施例提供的一种文本分类方法的Student集成模型的蒸馏示意图。
[0040]在本专利技术一种具体实施方式中,本专利技术实施例提供一种文本分类方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取待分类文本;将所述待分类文本输入到Student集成模型,得到所述待分类文本的分类结果;其中,所述Student集成模型包括:N种Student模型,N种所述Student模型为各不相同的神经网络模型通过Teacher模型蒸馏得到的。2.根据权利要求1所述的文本分类方法,其特征在于,当所述Teacher模型对N种所述Student模型进行的蒸馏时,N种所述Student模型的损失函数均为:Loss=T*Mse(s,t)+a*Crossentropy(s,y);其中,Loss为目标损失函数值,s为N种Student模型各自输出logits值;t为所述Teacher模型输出的logits值;T、a均为权重系数;y为进行蒸馏时的样本的真实标签。3.根据权利要求2所述的文本分类方法,其特征在于,T=2,a=1。4.根据权利要求1所述的文本分类方法,其特征在于,所述Student集成模型输出的结果为N种所述Student模型加权得到的。5.根据权利要求4所述的文本分类方法,其特征在于,N种所述Student模型包括:BILSTM分类模型、TEXTCNN分类模型以及RCNN分类模型中的至少两种。6.根据权利要求1至5任一项所述的文本分类方法,其特征在于,所述将所述待分类文本输入到Stud...

【专利技术属性】
技术研发人员:张乐乐冯少辉李鹏
申请(专利权)人:北京中科智加科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1