System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 小参数模型的构建方法、文本标签的生成方法及装置制造方法及图纸_技高网

小参数模型的构建方法、文本标签的生成方法及装置制造方法及图纸

技术编号:41128149 阅读:3 留言:0更新日期:2024-04-30 17:56
本发明专利技术提供了一种小参数模型的构建方法、文本标签的生成方法及装置,包括:获取目标领域的训练数据集;基于大语言模型生成训练数据集的文本标签,并基于文本标签得到初始训练数据集;基于初始训练数据集对预训练模型进行训练,得到多标签分类模型;通过蒸馏训练对多标签分类模型进行训练,得到小参数模型;其中,小参数模型用于生成目标领域的文本数据集的文本标签。本发明专利技术提高了文本标签的准确性和标签生成的效率,同时降低了人工参与的成本和工作量。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其是涉及一种小参数模型的构建方法、文本标签的生成方法及装置


技术介绍

1、对于文本数据集初步分析,经常需要给文本添加标签来概括文本的主要内容,用于统计分析以及其他应用。目前,常用的生成文本标签的方法可以简单分为自动化的方法和人工参与的方法。自动化的方法,例如采用已开源的或者历史积累的文本分类模型对新领域文本分类,得到可参考的标签。自动化的方法比较简便,但是可能存在两个问题,一是用来做分类的模型泛化性不高,不适用于新领域文本,得到的标签结果不准确;二是对于文本数据量级过大的情况,如果分类模型本身参数量大或者硬件资源不足,会导致推理速度过慢。处理新领域文本人工参与的方法,例如采用某些方法挑选出重要有代表性的文本进行人工添加标签,再用来构建模型,这样得到的标签足够准确,但是花费人力物力,效率不高。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种小参数模型的构建方法、文本标签的生成方法及装置,以提高了文本标签的准确性和标签生成的效率,同时降低了人工参与的成本和工作量。

2、为了实现上述目的,本专利技术实施例采用的技术方案如下:

3、第一方面,本专利技术实施例提供了一种小参数模型的构建方法,包括:获取目标领域的训练数据集;基于大语言模型生成训练数据集的文本标签,并基于文本标签得到初始训练数据集;基于初始训练数据集对预训练模型进行训练,得到多标签分类模型;通过蒸馏训练对多标签分类模型进行训练,得到小参数模型;其中,小参数模型用于生成目标领域的文本数据集的文本标签。

4、在一种实施方式中,基于大语言模型生成训练数据集的文本标签,包括:设置大预言模型的模型参数,并输入提示语;将训练数据集输入到大预言模型中,基于提示语生成训练数据集的文本标签。

5、在一种实施方式中,基于文本标签得到初始训练数据集,包括:获取文本标签的出现频率,并将出现频率大于或者等于预先设定的频率阈值的文本标签保留,将出现频率小于频率阈值的文本标签舍弃。

6、在一种实施方式中,基于初始训练数据集对预训练模型进行训练,得到多标签分类模型,包括:获取预训练模型,并基于初始训练数据集对预训练模型进行调整,得到多标签分类模型。

7、在一种实施方式中,通过蒸馏训练对多标签分类模型进行训练,得到小参数模型,包括:将多标签分类模型确定为教师模型,并构建与多标签分类模型结构相同的小参数模型作为学生模型;基于初始训练数据集对教师模型和学生模型进行知识蒸馏,得到小参数模型。

8、第二方面,本专利技术实施例提供了一种文本标签的生成方法,包括:获取目标领域的文本数据集;将文本数据集输入到预先训练好的小参数模型中得到文本标签;其中,小参数模型是采用上述第一方面提供的任一项的方法构建的。

9、第三方面,本专利技术实施例提供了一种小参数模型的构建装置,包括:训练数据集获取模块,用于获取目标领域的训练数据集;初始训练数据集生成模块,用于基于大语言模型生成训练数据集的文本标签,并基于文本标签得到初始训练数据集;多标签分类模型训练模块,用于基于初始训练数据集对预训练模型进行训练,得到多标签分类模型;小参数模型训练模块,用于通过蒸馏训练对多标签分类模型进行训练,得到小参数模型;其中,小参数模型用于生成目标领域的文本数据集的文本标签。

10、第四方面,本专利技术实施例提供了一种文本标签的生成装置,包括:数据获取模块,用于获取目标领域的文本数据集;文本标签生成模块,用于将文本数据集输入到预先训练好的小参数模型中得到文本标签;其中,小参数模型是采用上述第一方面提供的任一项的方法构建的。

11、第五方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面或者第二方面提供的任一项的方法的步骤。

12、第六方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面或者第二方面提供的任一项的方法的步骤。

13、本专利技术实施例带来了以下有益效果:

14、本专利技术实施例提供的上述小参数模型的构建方法及装置,首先获取目标领域的训练数据集;然后基于大语言模型生成训练数据集的文本标签,并基于文本标签得到初始训练数据集;接着基于初始训练数据集对预训练模型进行训练,得到多标签分类模型;最后通过蒸馏训练对多标签分类模型进行训练,得到小参数模型(用于生成目标领域的文本数据集的文本标签)。上述方法利用大语言模型的文本生成能力生成文本标签,结合预训练模型以及知识蒸馏的模型压缩方法得到小参数模型,进一步拓展了大语言模型的应用范围,可以实现对新领域数据集的快速初步分析,节省了标签标注的人工参与的成本和工作量,提高了文本标签的准确性和标签生成的效率。

15、本专利技术实施例提供的上述文本标签的生成方法及装置,首先获取目标领域的文本数据集;然后将文本数据集输入到预先训练好的小参数模型中得到文本标签。上述方法基于前述小参数模型的构建方法构建的小参数模型生成文本标签,能够节省了标签标注的人工参与的成本和工作量,提高了文本标签的准确性和标签生成的效率。

16、本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

17、为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

本文档来自技高网...

【技术保护点】

1.一种小参数模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于大语言模型生成所述训练数据集的文本标签,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述文本标签得到初始训练数据集,包括:

4.根据权利要求1所述的方法,其特征在于,基于所述初始训练数据集对预训练模型进行训练,得到多标签分类模型,包括:

5.根据权利要求1所述的方法,其特征在于,通过蒸馏训练对所述多标签分类模型进行训练,得到小参数模型,包括:

6.一种文本标签的生成方法,其特征在于,包括:

7.一种小参数模型的构建装置,其特征在于,包括:

8.一种文本标签的生成装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至5或者权利要求6任一项所述的方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至5或者权利要求6任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种小参数模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于大语言模型生成所述训练数据集的文本标签,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述文本标签得到初始训练数据集,包括:

4.根据权利要求1所述的方法,其特征在于,基于所述初始训练数据集对预训练模型进行训练,得到多标签分类模型,包括:

5.根据权利要求1所述的方法,其特征在于,通过蒸馏训练对所述多标签分类模型进行训练,得到小参数模型,包括:

6.一种文本标签的生成方法,...

【专利技术属性】
技术研发人员:张涵何盼谢亚文麻沁甜
申请(专利权)人:上海勃池信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1