基于大语言模型的数据标准化处理方法以及装置制造方法及图纸

技术编号:41525308 阅读:26 留言:0更新日期:2024-06-03 22:59
本发明专利技术公开了一种基于大语言模型的数据标准化处理方法以及装置,其方法实现,包括:获取待处理数据,从待处理数据中提取目标领域数据,并进行预处理;将预处理后的目标领域数据以及目标文本提示模板,输入至第一大语言模型中,以得到基于所述目标文本提示模板生成的问题信息与回答信息;当问题信息与回答信息符合一致性条件时,将预处理后的目标领域数据,作为第一训练数据;获取原始监督微调数据集,以作为第二训练数据,通过第一训练数据以及第二训练数据对第二大语言模型进行训练。本申请,通过将第一大语言模型将目标领域数据生成问题与回答的方式,实现数据标准化与统一,简化大语言模型训练流程,以提高模型在特定领域中的性能和适应性。

【技术实现步骤摘要】

本专利技术涉及大语言模型,尤其涉及一种基于大语言模型的数据标准化处理方法以及装置


技术介绍

1、大型语言模型(large language model,llm),是指能够处理大量自然语言数据的深度学习模型,它已经在自然语言处理、文本生成、机器翻译等多个领域中展现出了巨大的潜力。

2、但是,在对大型语言模型进行训练时,通常采用两阶段训练方法,包括预训练和监督微调,以实现领域自适应。然而,这种方法存在几个不足之处:数据不一致性:由于预训练和微调数据的不一致性,模型可能面临灾难性遗忘和性能退化问题。复杂的培训流程:两阶段培训需要独立的数据准备、编码和测试步骤,导致培训流程复杂,难以扩展和灵活应对变化。大规模参数的管理:在两个阶段使用不同的超参数(如批处理大小、学习率等)需要大量手动调整,管理大规模模型的复杂性。数据质量:预训练阶段的数据可能质量较低,包含不一致的文本风格、语言差异和其他问题,影响模型性能。因此,如何解决领域自适应过程中预训练和监督微调数据的统一处理,简化大型语言模型的训练流程,成为当前亟待解决的问题。

r/>

技本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的数据标准化处理方法,其特征在于,所述方法,包括:

2.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述通过所述第一训练数据以及所述第二训练数据对第二大语言模型进行训练,包括:

3.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述所述分别计算所述第一训练数据以及所述第二训练数据中各数据的采样概率,包括:

4.如权利要求1或2任一项所述的基于大语言模型的数据标准化处理方法,其特征在于,所述通过所述第一训练数据以及所述第二训练数据对第二大语言模型进行训练,包括:

<p>5.如权利要求1...

【技术特征摘要】

1.一种基于大语言模型的数据标准化处理方法,其特征在于,所述方法,包括:

2.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述通过所述第一训练数据以及所述第二训练数据对第二大语言模型进行训练,包括:

3.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述所述分别计算所述第一训练数据以及所述第二训练数据中各数据的采样概率,包括:

4.如权利要求1或2任一项所述的基于大语言模型的数据标准化处理方法,其特征在于,所述通过所述第一训练数据以及所述第二训练数据对第二大语言模型进行训练,包括:

5.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述从所述待处理数据中提取目标领域数据,并进行预处理,包括:

6.如权利要求5所述的基于大语言模型的数据标准化处理方法,其特征在于,所述获取目标领域对应的关键词以及术语,...

【专利技术属性】
技术研发人员:王本友陈俊颖李健铨高安凝哲王熙栋蒋峰孙学宁王昌淼万翔李海洲
申请(专利权)人:深圳市大数据研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1