【技术实现步骤摘要】
本专利技术涉及大语言模型,尤其涉及一种基于大语言模型的数据标准化处理方法以及装置。
技术介绍
1、大型语言模型(large language model,llm),是指能够处理大量自然语言数据的深度学习模型,它已经在自然语言处理、文本生成、机器翻译等多个领域中展现出了巨大的潜力。
2、但是,在对大型语言模型进行训练时,通常采用两阶段训练方法,包括预训练和监督微调,以实现领域自适应。然而,这种方法存在几个不足之处:数据不一致性:由于预训练和微调数据的不一致性,模型可能面临灾难性遗忘和性能退化问题。复杂的培训流程:两阶段培训需要独立的数据准备、编码和测试步骤,导致培训流程复杂,难以扩展和灵活应对变化。大规模参数的管理:在两个阶段使用不同的超参数(如批处理大小、学习率等)需要大量手动调整,管理大规模模型的复杂性。数据质量:预训练阶段的数据可能质量较低,包含不一致的文本风格、语言差异和其他问题,影响模型性能。因此,如何解决领域自适应过程中预训练和监督微调数据的统一处理,简化大型语言模型的训练流程,成为当前亟待解决的问题。
r/>技本文档来自技高网...
【技术保护点】
1.一种基于大语言模型的数据标准化处理方法,其特征在于,所述方法,包括:
2.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述通过所述第一训练数据以及所述第二训练数据对第二大语言模型进行训练,包括:
3.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述所述分别计算所述第一训练数据以及所述第二训练数据中各数据的采样概率,包括:
4.如权利要求1或2任一项所述的基于大语言模型的数据标准化处理方法,其特征在于,所述通过所述第一训练数据以及所述第二训练数据对第二大语言模型进行训练,包括:
< ...【技术特征摘要】
1.一种基于大语言模型的数据标准化处理方法,其特征在于,所述方法,包括:
2.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述通过所述第一训练数据以及所述第二训练数据对第二大语言模型进行训练,包括:
3.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述所述分别计算所述第一训练数据以及所述第二训练数据中各数据的采样概率,包括:
4.如权利要求1或2任一项所述的基于大语言模型的数据标准化处理方法,其特征在于,所述通过所述第一训练数据以及所述第二训练数据对第二大语言模型进行训练,包括:
5.如权利要求1所述的基于大语言模型的数据标准化处理方法,其特征在于,所述从所述待处理数据中提取目标领域数据,并进行预处理,包括:
6.如权利要求5所述的基于大语言模型的数据标准化处理方法,其特征在于,所述获取目标领域对应的关键词以及术语,...
【专利技术属性】
技术研发人员:王本友,陈俊颖,李健铨,高安凝哲,王熙栋,蒋峰,孙学宁,王昌淼,万翔,李海洲,
申请(专利权)人:深圳市大数据研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。