System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种用于微调大语言模型的数据集构建方法、装置和设备。
技术介绍
1、随着人工智能技术的不断发展,大语言模型在各个领域的应用越来越广泛。大语言模型是指用大量文本数据训练,模型参数达到百亿甚至千亿量级的深度学习模型,可以处理多种类型的自然语言任务,如文本分类、内容生成、对话等任务。在垂直领域中,大语言模型也能够帮助企业快速、准确地处理相关数据,提高业务效率。然而,为了使大语言模型在垂直领域中发挥更好的作用,需要对其进行微调。微调是指对预训练模型进行特定任务的再训练,以使其能够更好地适应特定任务。因此,生成大语言模型微调数据集是微调的关键步骤之一。而检测行业中检测用户与检测机构的对话等数据来源广泛且样式多变,人工收集效率低;由于不同数据的特征不同,需要对每个特征进行单独处理,导致预处理的难度大;少量数据集又难以支撑大模型微调训练的效果。因此,如何快速生成大量的多样式、高质量的数据集,保证行业大模型微调的效果,是检测行业大语言模型开发的一个亟需解决的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种用于微调大语言模型的数据集构建方法、装置和设备。
2、一种用于微调大语言模型的数据集构建方法,所述方法包括:
3、获取检测语料数据和检测参数数据,根据经预处理后的所述检测语料数据和所述检测参数数据构建编制数据集;所述检测语料数据包括用户与检测机构之间的交流询问内容;所述检测参数数据包括与用户需求相关的检测行业标准、检测项目、检
4、对所述编制数据集中与用户需求相关的数据进行分类,得到若干语料列表,根据所述语料列表和所述检测语料数据得到对应的示例数据,根据所述示例数据构建示例数据集;
5、将所述示例数据集输入预训练的大语言模型,对所述示例数据集中的示例数据进行学习,得到增强数据集;
6、对所述检测语料数据与所述增强数据集中数据的问答样式进行分类,得到若干样式列表;
7、根据样式列表中包含的与用户需求相关的数据,将每一样式列表与对应的语料列表进行关联,得到每一样式列表对应的关联列表,遍历每一样式列表,将每一样式列表和对应的关联列表进行融合,得到融合数据集;
8、根据所述编制数据集、所述示例数据集、所述增强数据集和所述融合数据集,得到微调数据集。
9、在其中一个实施例中,还包括:利用所述微调数据集训练预训练的大语言模型,得到训练好的大语言模型。
10、在其中一个实施例中,还包括:获取用户输入的问题文本,将所述问题文本输入所述训练好的大语言模型,得到所述问题文本对应的生成内容;所述生成内容与检测检验行业有关。
11、在其中一个实施例中,还包括:将所述示例数据集输入预训练的大语言模型,对所述示例数据集中的示例数据进行学习,得到每一示例数据对应的生成内容;对所述生成内容进行合格检验,根据通过检验的生成内容得到增强数据集。
12、一种用于微调大语言模型的数据集构建装置,所述装置包括:
13、数据获取模块,用于获取检测语料数据和检测参数数据,根据经预处理后的所述检测语料数据和所述检测参数数据构建编制数据集;所述检测语料数据包括用户与检测机构之间的交流询问内容;所述检测参数数据包括与用户需求相关的检测行业标准、检测项目、检测机构信息和检测设备信息;
14、示例构建模块,用于对所述编制数据集中与用户需求相关的数据进行分类,得到若干语料列表,根据所述语料列表和所述检测语料数据得到对应的示例数据,根据所述示例数据构建示例数据集;
15、数据增强模块,用于将所述示例数据集输入预训练的大语言模型,对所述示例数据集中的示例数据进行学习,得到生成内容对应的增强数据集;
16、样式分析模块,用于对所述检测语料数据与所述增强数据集中数据的问答样式进行分类,得到若干样式列表;
17、数据融合模块,用于根据样式列表中包含的与用户需求相关的数据,将每一样式列表与对应的语料列表进行关联,得到每一样式列表对应的关联列表,遍历每一样式列表,将每一样式列表和对应的关联列表进行融合,得到融合数据集;
18、数据集构建模块,用于根据所述编制数据集、所述示例数据集、所述增强数据集和所述融合数据集,得到微调数据集。
19、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
20、获取检测语料数据和检测参数数据;根据经预处理后的所述检测语料数据和所述检测参数数据构建编制数据集;所述检测语料数据包括用户与检测机构之间的交流询问内容;所述检测参数数据包括与用户需求相关的检测行业标准、检测项目、检测机构信息和检测设备信息;
21、对所述编制数据集中与用户需求相关的数据进行分类,得到若干语料列表,根据所述语料列表和所述检测语料数据得到对应的示例数据,根据所述示例数据构建示例数据集;
22、将所述示例数据集输入预训练的大语言模型,对所述示例数据集中的示例数据进行学习,得到增强数据集;
23、对所述检测语料数据与所述增强数据集中数据的问答样式进行分类,得到若干样式列表;
24、根据样式列表中包含的与用户需求相关的数据,将每一样式列表与对应的语料列表进行关联,得到每一样式列表对应的关联列表,遍历每一样式列表,将每一样式列表和对应的关联列表进行融合,得到融合数据集;
25、根据所述编制数据集、所述示例数据集、所述增强数据集和所述融合数据集,得到微调数据集。
26、上述用于微调大语言模型的数据集构建方法、装置和设备,通过获取检测语料数据和检测参数数据,根据经预处理后的检测语料数据和检测参数数据构建编制数据集,对编制数据集中与用户需求相关的数据进行分类,得到若干语料列表,根据语料列表和检测语料数据得到对应的示例数据,根据示例数据构建示例数据集,将示例数据集输入预训练的大语言模型,对示例数据集中的示例数据进行学习,得到增强数据集,对检测语料数据与增强数据集中数据的问答样式进行分类,得到若干样式列表,根据样式列表中包含的与用户需求相关的数据,将每一样式列表与对应的语料列表进行关联,得到每一样式列表对应的关联列表,遍历每一样式列表,将每一样式列表和对应的关联列表进行融合,得到融合数据集,根据编制数据集、示例数据集、增强数据集和融合数据集,得到微调数据集。本专利技术实施例,能够解决检测行业中大语言模型微调数据来源广收集效率低、预处理难度大、数据量小的问题,提高检测行业大语言模型微调的效果,增加检测行业大语言模型的应用效果。为大语言模型在检测行业的快速落地提供数据支持。
本文档来自技高网...【技术保护点】
1.一种用于微调大语言模型的数据集构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述将所述示例数据集输入预训练的大语言模型,对所述示例数据集中的示例数据进行学习,得到增强数据集包括:
5.一种用于微调大语言模型的数据集构建装置,其特征在于,所述装置包括:
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
【技术特征摘要】
1.一种用于微调大语言模型的数据集构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述将所述示例数据集输入预训练的大语言模型,对所述示例数据集中的示例数据进行学习,得到增强数据集包括:
...
【专利技术属性】
技术研发人员:戴铮,陈新华,徐晹,刘泉,陈思仪,
申请(专利权)人:湖南航天天麓新材料检测有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。